独立研究者提出 NFW 训练法：Transformer 每层从初始化即采用低秩分解

一名独立研究者在 Reddit r/MachineLearning 板块分享了一组关于 Transformer 训练结构的实验，提出「原生分解权重」（Native Factorized Weights，NFW）方法。该方法将每个线性层在初始化时即替换为两个低秩矩阵相乘的形式 W = V·Uᵀ，并从头开始训练，而非先训练稠密模型再事后压缩。研究人将其中的低秩层称为「Sliver layers」。

研究方法

NFW 不依赖任何预训练权重，也不叠加 LoRA 之类的适配器，而是把低秩分解本身作为模型权重表达的基底。由于层参数从原本的 n² 缩减为 2nr + 2nr，研究者将节省下来的预算转而翻倍隐藏维度，并以此与同等层数的稠密基线（Config D，n×n 权重）做对比。

核心发现：语料决定的最优秩

实验最引人注意的结果并不是参数压缩，而是「秩的选择本身」。研究者在 WikiText-2 上扫描不同秩对应的验证损失，发现存在一个由训练语料决定的最优秩 r*，并非由模型规模决定。当秩超过第二个阈值 r'（即记忆起始点）后，模型开始具备在既定训练预算下记忆训练数据的能力，验证损失随之回升。

由此形成一个「泛化安全带」[r*, r')：在该区间内训练，结构上是安全的。仅看损失曲线难以判断是否落在带内，需要完整的秩扫描才能确认。

WikiText-2 实验结果

研究者在 n=2048、L=4 的 Transformer、训练 20k 步的设定下报告了以下结果：

稠密基线：验证困惑度 6.219，训练/验证差距 1.504
NFW r=8：验证 7.423，处于欠拟合区
NFW r=16：验证 6.228，接近 r*
NFW r=32：验证 5.617，差距 1.302，以更少参数超越稠密基线
NFW r=64：验证 5.849，差距扩大到 1.841，逼近 r'
NFW r=128：验证 6.083，差距 2.603，记忆压力明显

加入 dropout 与学习率 warmup 的「生产式」训练条件下：

稠密 + dropout/warmup：验证最低 5.759，但在第 9600 步后发散，差距扩大到 3.9
NFW r=32 + dropout/warmup：验证 5.545，差距 1.148，全程稳定

研究者认为，秩约束与随机正则化作用于不同失效模式：dropout 对抗噪声，秩上限对抗记忆。即使加 dropout，稠密模型仍可能「带噪声地记忆」，而秩受限模型在结构上就无法记忆。

几何解释

研究者给出一个几何直觉：训练后的 Transformer 权重矩阵本身就位于一个低秩流形附近，NFW 只是把这个流形当作训练空间，而非在更高维的「环境空间」中训练后才发现流形。r* 是流形维度与语料信息量匹配的临界点，r' 则是流形宽到足以容纳训练集的临界点。当前稠密训练之所以难以对 W 做清晰的 U、V 分解，是因为开放参数场会积累噪声、混淆蒸馏，而直接用 U、V 作为唯一可写存储则不会引入这类噪声。

计算与现状

NFW 目前尚无原生推理内核，推理时仍需将 W = V·Uᵀ 物化为稠密矩阵以走标准 Transformer 路径。研究者表示，若该结构值得被采纳，专门设计的原生内核有望在计算层面同样实现参数级压缩率。

完整论文（含更详细的实验与讨论）已完成，但作者是首次向 arXiv cs.LG 投稿，需要领域内具有 endorsement 资格的研究者背书才能发布。该帖以寻求背书与外部复现为主要目的。代码、训练脚本与完整结果 JSON 已开源在 GitHub 仓库 Malkom1366/native-factorized-weights。研究者也明确呼吁其他人在更多语料上重复实验，以验证 r* 由语料决定这一核心结论的稳健性。