压缩即智能:当Transformer被迫学会断舍离

发布时间:2026/6/22 12:03:13
压缩即智能:当Transformer被迫学会断舍离 Wu, Z. et al.Variable-Width Transformers.arXiv:2606.18246, 2026. MIT MIT-IBM Watson AI Lab.一、一个披萨桌上的问题杨植麟曾经拿着一块披萨,用一句话讲清了为什么压缩就是智能。他说:爱因斯坦把巨大的信息量压进 E=mc²,这才叫智能。啰嗦半天讲不清楚的人,不是知道得太多,是理解得太浅。我当时没在场,但这句话让我想了很久。如果一个模型真正的聪明不是因为它记住了多少,而是因为它能把混乱的现实提炼成简洁的结构——那我们可以反过来问:如果我们强迫模型变得更"窄",它会不会被迫变得更聪明?MIT 的人最近试了一手。答案是:会。而且效果显著。二、等宽是方便,不是最优我们先看看现在的 Transformer 在干什么。你有一个 24 层的模型。每一层的"宽度"——也就是隐藏维度——都是 2048。第 1 层是 2048,第 12 层是 2048,第 24 层也是 2048。参数和算力被均匀地撒在每一层上,像一张均匀的毯子。方便吗?当然。你写代码的时候只定一个数就行了。合理吗?未必。因为不同层干的事根本不一样。前几层在做什么?它们在辨认词与词之间的表面关系——语法、搭配、局部共现。后几层在做什么?它们在组装高层语义——推理、指代、跨句子的逻辑。中间那几层呢?它们在把低层的碎片翻译成高层的