桃子桃子快讯
返回首页
研究论文

独立研究者提出 NFW 训练法:Transformer 每层从初始化即采用低秩分解

独立研究者在 WikiText-2 上验证:若 Transformer 每层从初始化即为 W=V·Uᵀ 形式,可在远少于…

2026.07.04 · 周六4 分钟阅读

一名独立研究者在 Reddit r/MachineLearning 板块分享了一组关于 Transformer 训练结构的实验,提出「原生分解权重」(Native Factorized Weights,NFW)方法。该方法将每个线性层在初始化时即替换为两个低秩矩阵相乘的形式 W = V·Uᵀ,并从头开始训练,而非先训练稠密模型再事后压缩。研究人将其中的低秩层称为「Sliver layers」。

研究方法

NFW 不依赖任何预训练权重,也不叠加 LoRA 之类的适配器,而是把低秩分解本身作为模型权重表达的基底。由于层参数从原本的 n² 缩减为 2nr + 2nr,研究者将节省下来的预算转而翻倍隐藏维度,并以此与同等层数的稠密基线(Config D,n×n 权重)做对比。

核心发现:语料决定的最优秩

实验最引人注意的结果并不是参数压缩,而是「秩的选择本身」。研究者在 WikiText-2 上扫描不同秩对应的验证损失,发现存在一个由训练语料决定的最优秩 r*,并非由模型规模决定。当秩超过第二个阈值 r'(即记忆起始点)后,模型开始具备在既定训练预算下记忆训练数据的能力,验证损失随之回升。

由此形成一个「泛化安全带」[r*, r'):在该区间内训练,结构上是安全的。仅看损失曲线难以判断是否落在带内,需要完整的秩扫描才能确认。

WikiText-2 实验结果

研究者在 n=2048、L=4 的 Transformer、训练 20k 步的设定下报告了以下结果:

  • 稠密基线:验证困惑度 6.219,训练/验证差距 1.504
  • NFW r=8:验证 7.423,处于欠拟合区
  • NFW r=16:验证 6.228,接近 r*
  • NFW r=32:验证 5.617,差距 1.302,以更少参数超越稠密基线
  • NFW r=64:验证 5.849,差距扩大到 1.841,逼近 r'
  • NFW r=128:验证 6.083,差距 2.603,记忆压力明显

加入 dropout 与学习率 warmup 的「生产式」训练条件下:

  • 稠密 + dropout/warmup:验证最低 5.759,但在第 9600 步后发散,差距扩大到 3.9
  • NFW r=32 + dropout/warmup:验证 5.545,差距 1.148,全程稳定

研究者认为,秩约束与随机正则化作用于不同失效模式:dropout 对抗噪声,秩上限对抗记忆。即使加 dropout,稠密模型仍可能「带噪声地记忆」,而秩受限模型在结构上就无法记忆。

几何解释

研究者给出一个几何直觉:训练后的 Transformer 权重矩阵本身就位于一个低秩流形附近,NFW 只是把这个流形当作训练空间,而非在更高维的「环境空间」中训练后才发现流形。r* 是流形维度与语料信息量匹配的临界点,r' 则是流形宽到足以容纳训练集的临界点。当前稠密训练之所以难以对 W 做清晰的 U、V 分解,是因为开放参数场会积累噪声、混淆蒸馏,而直接用 U、V 作为唯一可写存储则不会引入这类噪声。

计算与现状

NFW 目前尚无原生推理内核,推理时仍需将 W = V·Uᵀ 物化为稠密矩阵以走标准 Transformer 路径。研究者表示,若该结构值得被采纳,专门设计的原生内核有望在计算层面同样实现参数级压缩率。

完整论文(含更详细的实验与讨论)已完成,但作者是首次向 arXiv cs.LG 投稿,需要领域内具有 endorsement 资格的研究者背书才能发布。该帖以寻求背书与外部复现为主要目的。代码、训练脚本与完整结果 JSON 已开源在 GitHub 仓库 Malkom1366/native-factorized-weights。研究者也明确呼吁其他人在更多语料上重复实验,以验证 r* 由语料决定这一核心结论的稳健性。

信源