桃子桃子快讯
返回首页
研究论文

扩散语言模型提速新方案:MBD-LMs 多块并行解码

研究团队提出 MultiTF 训练方法与 Block Buffer 解码机制,将块扩散语言模型扩展到多块并行,TPF 近…

2026.07.04 · 周六3 分钟阅读

扩散语言模型(Diffusion LM)虽然提供了一种区别于自回归的非顺序生成路径,但在推理效率与可变长度生成方面仍存在明显短板。来自上海交通大学 DENG-Lab 的研究团队近期发布论文《Multi-Block Diffusion Language Models》,提出了一种将块扩散语言模型(BD-LMs)从「单块」扩展到「多块并行解码」的训练与解码方案 MBD-LMs,为扩散 LM 的实用化推进了一步。

研究背景:从单块到多块

现有 BD-LMs 主要在 teacher forcing 范式下训练,模型每一时刻只能看到一个受噪声污染的块,并由干净前缀条件化。近期出现的 diffusion forcing 策略虽然引入了多块间的可见性,但训练状态与多块扩散推理(MultiBD)时「带边界运行集 + 异构噪声模式」的解码条件并不对齐,导致训练-推理差距。

核心方法:MultiTF 训练 + Block Buffer 解码

为弥合这一差距,作者提出两方面的改进:

  • Multi-block Teacher Forcing(MultiTF):在干净前缀条件下,对有界的「噪声分组」进行训练,并使用随机化的噪声调度器(noise scheduler),使其更贴合 MultiBD 推理时的真实状态分布。
  • Block Buffer 解码机制:保留前缀缓存复用、维持输入张量形状静态,并把提升的解码并行度真正转化为推理墙钟时间的加速。

MBD-LMs 本质上是以 BD-LMs 权重为基础,通过 MultiTF 后训练得到的。

实验结果

研究团队在基于 LLaDA2-Mini 的设置上验证方案效果:

  • 单独使用 MBD-LLaDA2-Mini:平均 Tokens Per Forward pass(TPF)由 3.47 提升至 6.19,提升幅度近 80%;
  • 在数学与代码基准上的平均准确率由 79.95% 上升到 81.03%;
  • 与 DMax 推理策略进一步叠加后,MBD-LLaDA2-Mini-DMax 的平均 TPF 达到 9.34,相比基线提升约 2.7 倍,同时平均准确率仅下降 1.02 个百分点。

意义与局限

对扩散 LM 方向而言,MBD-LMs 给出了一种「不动主训练流水线、通过后训练对齐推理分布」的轻量路线,并在解码算法层配套设计了可工程化的 Block Buffer。这一组合在保持准确率的同时显著提升单位前向的 token 产出量,对扩散 LM 的实际部署具有参考价值。不过,论文本身聚焦于扩散范式这一仍属小众的 LLM 路线,对主流自回归模型生态的直接外溢效应有限,且当前验证规模以 LLaDA2-Mini 为主,更大模型与更多任务上的泛化表现仍待后续工作补充。

参考链接:

信源