Mila 等机构提出锥形语言模型,将参数容量从后段层前移前段,相同算力下困惑度显著下降,且在多种架构上得到验证。
在主流厂商竞相通过 MoE 扩容、用稀疏激活压成本的大背景下,一篇来自 Mila、康奈尔大学和蒙特利尔大学的研究论文提出了一个反向问题:如果一个参数都不多加,只是把模型中已有的参数「挪个位置」,Transformer 能否变得更强?研究团队将这种做法命名为「锥形语言模型」(Tapered Language Models, TLMs),并在多种架构上验证了其有效性。
自 2017 年《Attention Is All You Need》以来,几乎所有语言模型都遵循同一种骨架:把若干结构完全相同的层叠在一起,每一层分到的参数量一模一样。研究者用「连锁餐厅无论开在闹市区还是郊区,都配备相同数量的厨师和厨房设备」来形容这种设计。
但近年来的多项研究已经表明,模型各层的重要性并不相同:
层与层之间天差地别,参数却始终被一视同仁,这正是论文试图打破的默认设定。
研究团队首先在一组 440M 参数的 Transformer 上做了验证实验:把模型的层分为早、中、晚三组,在总参数量不变的前提下,让其中一组的「前馈网络」(FFN)变宽,其余两组变窄。结果显示:
这一发现指向更细的方向:与其用「一刀切」的三段式分组,能否用一条更平滑的曲线,让容量沿深度方向单调递减?研究者将该思路命名为 TLMs,并保证所有层的平均宽度与原模型一致,使总参数量和计算量完全不变,分布形状则从「长方形」变为「楔形」。
团队尝试了三种递减曲线:
在 440M 参数 Transformer 上对五种宽度比例与三种曲线组合扫描后,余弦递减以全面优势胜出。在最优配置下(前段宽度为基准的 1.5 倍,后段为基准的 0.5 倍):
更关键的是,这一结论并非某一架构的特例。研究团队将同一套配置直接迁移到三种结构迥异的架构上:
在 760M 和 1.3B 两个更大参数规模上重新验证,四种架构、两种规模共八组对比中:
为解释这一现象,团队测量了 GPT-2 系列模型中各层 FFN 输出与已有信息流的相似程度,发现清晰规律:越往模型深处走,每一层新写入的内容与已存在信息越相似。也就是说,后段的层更多是在「重复强调」已有判断,而非「创造」新理解。这恰好印证了把容量从后段挪到前段的合理性。
研究者也指出,该思路并不局限于语言模型:视觉 Transformer、扩散模型、多模态模型,几乎都继承了同一种「层层均分」的默认设定。如果容量分配的形状本身就是一个被长期忽视的设计维度,那么这把「藏在明处的免费杠杆」,或许才刚刚被注意到。
论文由 Mila 的 Reza Bayat、康奈尔大学博士生 Ali Behrouz(现任 Google Research 研究员,Titans 与「嵌套学习」框架设计者),以及 Mila 联合创始人、蒙特利尔大学教授、CIFAR AI Chair、GAN 作者之一 Aaron Courville 共同完成。原文地址:https://arxiv.org/abs/2606.23670