13 岁开发者发布 DIMBA II：Mamba 与扩散语言模型的一次小型架构实验

一名 13 岁的独立开发者近日公布了名为 DIMBA II 的大语言模型架构实验。据作者描述，这是首次尝试将 Mamba-2 状态空间模型与掩码扩散语言模型相组合，所有此前已知的掩码扩散文本模型（如 LLaDA、MDLM、Dream）都仍然建立在 Transformer 主干之上。

为什么要换掉 Transformer 主干

作者在技术报告中指出，Transformer 自注意力机制的复杂度随上下文长度呈平方增长。在今天的使用场景下——编码智能体把整份代码库塞进上下文、助手维持长达数周的对话记录、检索管线把数十份文档拼进同一条 prompt——这种开销已经难以忽视。Mamba 类架构以线性复杂度处理长序列，与扩散式并行生成结合后，理论上可以在长上下文场景中同时获得效率与生成能力。

DIMBA II 的具体设计与修复

相比未公开的第一代 DIMBA，II 代做了若干修正：

从「在连续潜在空间中加高斯噪声、再吸附到最近词向量」的潜在扩散，改为 LLaDA 式的掩码扩散，模型直接预测被 [MASK] 替换的位置
微调损失仅计算到响应末尾的一个 EOS token，不在 padding 上计算，避免模型学到「空答案最优」
10% 的训练行隐藏 prompt 全文，以支持推理时的无分类器引导（CFG），作者称这是整套实验里对质量影响最大的单一开关
加入抗重复采样器：对每个词的首次出现免罚，对重复出现加重惩罚，并禁止连续提交同一个 token

为感知被掩码 token 两侧的上下文，DIMBA 同时运行正向和反向两个堆栈，这也是最终模型参数量（约 2.879 亿）相较其教师 SmolLM-135M 接近翻倍的原因。作者坦承，模型的「诚实标签」是 288M 参数、135M 级别的知识容量，因为两个方向最终存储了大致相同的事实。

训练过程中的两个关键 bug

作者在训练中遭遇两个严重问题：

在 28B token 的蒸馏阶段，配置错误的教师模型实际上全程未真正提供监督信号——「花钱请的家教整学期都没来上课」
整套 28B token 原本针对潜在空间扩散训练，潜在扩散对完整文本生成来说不可行，输出退化为「词语沙拉」

意识到这两点时已无法重启训练，因为前期投入的算力成本已经达到数百美元。作者最终选择了补救路线：先在相同权重上用 1.6B token、打开教师模型重训，再转换到 LLaDA 式掩码扩散生成方式，最后用约 42.2 万条指令对做监督微调，得到了一个「勉强能用英语对话」的模型。

小模型不能可靠地自我评判

作者最有价值的发现之一是：在 300M 参数级别，模型并不具备可信的自评与纠错能力。他尝试了六种方案：

困惑度重排序：生成 8 个候选答案后让模型自选，模型稳定选出退化的重复循环，因为循环最容易预测
基于置信度的重掩码：用最不确定的 token 重新掩码再填空，准确率无明显变化
更复杂的重填策略：结果相同
修复训练：在随机注入错误的文本上微调，错误检测率从 0 提升到 7.1%；但换成模型自己采样产生的错误作为训练信号，检测率直接跌回 0
置信度衰减式重掩码：观察已生成 token 的概率随上下文填充的变化

核心结论是：模型自己犯的错在它看来恰好是合理的，这是一种「回音壁」效应。这一观察与更大规模模型中常见的能力并不一致。

局限与未来方向

DIMBA II 体量很小、知识容量仅相当于 1.35 亿参数级别，且训练过程已被 bug 显著影响。作者表示，未来希望在更大规模的基座上重做完整训练，并保留将潜在空间扩散作为「规划模式」的设想——先在潜空间起草答案，再转为文本生成。项目已在 Hacker News「Show HN」发布，代码与权重具体情况请参阅原帖。