不增参数只挪位置，Transformer 性能反升 1.84 点

在主流厂商竞相通过 MoE 扩容、用稀疏激活压成本的大背景下，一篇来自 Mila、康奈尔大学和蒙特利尔大学的研究论文提出了一个反向问题：如果一个参数都不多加，只是把模型中已有的参数「挪个位置」，Transformer 能否变得更强？研究团队将这种做法命名为「锥形语言模型」（Tapered Language Models, TLMs），并在多种架构上验证了其有效性。

研究背景：被默认的「均匀分配」

自 2017 年《Attention Is All You Need》以来，几乎所有语言模型都遵循同一种骨架：把若干结构完全相同的层叠在一起，每一层分到的参数量一模一样。研究者用「连锁餐厅无论开在闹市区还是郊区，都配备相同数量的厨师和厨房设备」来形容这种设计。

但近年来的多项研究已经表明，模型各层的重要性并不相同：

「提前退出」实验显示，模型在尚未运行到最后一层时，答案往往已基本定型；
「层剪枝」研究发现，砍掉后面部分层，模型表现几乎不受影响；
可解释性研究指出，浅层网络捕捉语法等「基础信息」，深层网络处理语义等「高级信息」。

层与层之间天差地别，参数却始终被一视同仁，这正是论文试图打破的默认设定。

核心思路：把「脑容量」往前挪

研究团队首先在一组 440M 参数的 Transformer 上做了验证实验：把模型的层分为早、中、晚三组，在总参数量不变的前提下，让其中一组的「前馈网络」（FFN）变宽，其余两组变窄。结果显示：

把容量集中到前段（头重脚轻）使验证集困惑度从 16.28 降到 15.96；
反过来把容量集中到后段，困惑度反而升至 17.29。

这一发现指向更细的方向：与其用「一刀切」的三段式分组，能否用一条更平滑的曲线，让容量沿深度方向单调递减？研究者将该思路命名为 TLMs，并保证所有层的平均宽度与原模型一致，使总参数量和计算量完全不变，分布形状则从「长方形」变为「楔形」。

团队尝试了三种递减曲线：

线性递减：宽度沿深度匀速下降；
S 形（Sigmoid）递减：中间急剧收缩，两端基本不变；
余弦递减：两头平缓、中段收紧，介于前两者之间。

实验结果：零成本的 1.84 个点

在 440M 参数 Transformer 上对五种宽度比例与三种曲线组合扫描后，余弦递减以全面优势胜出。在最优配置下（前段宽度为基准的 1.5 倍，后段为基准的 0.5 倍）：

困惑度从均匀分布基线的 16.28 降到 14.44，整整改善 1.84 个点；
全程未增加一个参数，未增加一次浮点运算。

更关键的是，这一结论并非某一架构的特例。研究团队将同一套配置直接迁移到三种结构迥异的架构上：

带门控机制的注意力模型；
具备「自我修改记忆」能力的 Hope-attention；
拥有神经长期记忆模块的 Titans 架构。

在 760M 和 1.3B 两个更大参数规模上重新验证，四种架构、两种规模共八组对比中：

锥形化模型在常识推理基准上的平均准确率全部提升；
LAMBADA 语言预测任务上的困惑度全部改善；
长文本检索（Needle-in-a-Haystack）测试也未牺牲长上下文能力。

现象解释与延伸

为解释这一现象，团队测量了 GPT-2 系列模型中各层 FFN 输出与已有信息流的相似程度，发现清晰规律：越往模型深处走，每一层新写入的内容与已存在信息越相似。也就是说，后段的层更多是在「重复强调」已有判断，而非「创造」新理解。这恰好印证了把容量从后段挪到前段的合理性。

研究者也指出，该思路并不局限于语言模型：视觉 Transformer、扩散模型、多模态模型，几乎都继承了同一种「层层均分」的默认设定。如果容量分配的形状本身就是一个被长期忽视的设计维度，那么这把「藏在明处的免费杠杆」，或许才刚刚被注意到。

论文由 Mila 的 Reza Bayat、康奈尔大学博士生 Ali Behrouz（现任 Google Research 研究员，Titans 与「嵌套学习」框架设计者），以及 Mila 联合创始人、蒙特利尔大学教授、CIFAR AI Chair、GAN 作者之一 Aaron Courville 共同完成。原文地址：https://arxiv.org/abs/2606.23670