桃子桃子快讯
返回首页
开源

13 岁开发者发布 DIMBA II:Mamba 与扩散语言模型的一次小型架构实验

独立开发者公布 DIMBA II,把 Mamba-2 状态空间模型与掩码扩散语言模型结合,在 288M 参数规模上重做了…

2026.07.05 · 周日4 分钟阅读

一名 13 岁的独立开发者近日公布了名为 DIMBA II 的大语言模型架构实验。据作者描述,这是首次尝试将 Mamba-2 状态空间模型与掩码扩散语言模型相组合,所有此前已知的掩码扩散文本模型(如 LLaDA、MDLM、Dream)都仍然建立在 Transformer 主干之上。

为什么要换掉 Transformer 主干

作者在技术报告中指出,Transformer 自注意力机制的复杂度随上下文长度呈平方增长。在今天的使用场景下——编码智能体把整份代码库塞进上下文、助手维持长达数周的对话记录、检索管线把数十份文档拼进同一条 prompt——这种开销已经难以忽视。Mamba 类架构以线性复杂度处理长序列,与扩散式并行生成结合后,理论上可以在长上下文场景中同时获得效率与生成能力。

DIMBA II 的具体设计与修复

相比未公开的第一代 DIMBA,II 代做了若干修正:

  • 从「在连续潜在空间中加高斯噪声、再吸附到最近词向量」的潜在扩散,改为 LLaDA 式的掩码扩散,模型直接预测被 [MASK] 替换的位置
  • 微调损失仅计算到响应末尾的一个 EOS token,不在 padding 上计算,避免模型学到「空答案最优」
  • 10% 的训练行隐藏 prompt 全文,以支持推理时的无分类器引导(CFG),作者称这是整套实验里对质量影响最大的单一开关
  • 加入抗重复采样器:对每个词的首次出现免罚,对重复出现加重惩罚,并禁止连续提交同一个 token

为感知被掩码 token 两侧的上下文,DIMBA 同时运行正向和反向两个堆栈,这也是最终模型参数量(约 2.879 亿)相较其教师 SmolLM-135M 接近翻倍的原因。作者坦承,模型的「诚实标签」是 288M 参数、135M 级别的知识容量,因为两个方向最终存储了大致相同的事实。

训练过程中的两个关键 bug

作者在训练中遭遇两个严重问题:

  • 在 28B token 的蒸馏阶段,配置错误的教师模型实际上全程未真正提供监督信号——「花钱请的家教整学期都没来上课」
  • 整套 28B token 原本针对潜在空间扩散训练,潜在扩散对完整文本生成来说不可行,输出退化为「词语沙拉」

意识到这两点时已无法重启训练,因为前期投入的算力成本已经达到数百美元。作者最终选择了补救路线:先在相同权重上用 1.6B token、打开教师模型重训,再转换到 LLaDA 式掩码扩散生成方式,最后用约 42.2 万条指令对做监督微调,得到了一个「勉强能用英语对话」的模型。

小模型不能可靠地自我评判

作者最有价值的发现之一是:在 300M 参数级别,模型并不具备可信的自评与纠错能力。他尝试了六种方案:

  • 困惑度重排序:生成 8 个候选答案后让模型自选,模型稳定选出退化的重复循环,因为循环最容易预测
  • 基于置信度的重掩码:用最不确定的 token 重新掩码再填空,准确率无明显变化
  • 更复杂的重填策略:结果相同
  • 修复训练:在随机注入错误的文本上微调,错误检测率从 0 提升到 7.1%;但换成模型自己采样产生的错误作为训练信号,检测率直接跌回 0
  • 置信度衰减式重掩码:观察已生成 token 的概率随上下文填充的变化

核心结论是:模型自己犯的错在它看来恰好是合理的,这是一种「回音壁」效应。这一观察与更大规模模型中常见的能力并不一致。

局限与未来方向

DIMBA II 体量很小、知识容量仅相当于 1.35 亿参数级别,且训练过程已被 bug 显著影响。作者表示,未来希望在更大规模的基座上重做完整训练,并保留将潜在空间扩散作为「规划模式」的设想——先在潜空间起草答案,再转为文本生成。项目已在 Hacker News「Show HN」发布,代码与权重具体情况请参阅原帖。

信源