扩散语言模型提速新方案：MBD-LMs 多块并行解码

扩散语言模型（Diffusion LM）虽然提供了一种区别于自回归的非顺序生成路径，但在推理效率与可变长度生成方面仍存在明显短板。来自上海交通大学 DENG-Lab 的研究团队近期发布论文《Multi-Block Diffusion Language Models》，提出了一种将块扩散语言模型（BD-LMs）从「单块」扩展到「多块并行解码」的训练与解码方案 MBD-LMs，为扩散 LM 的实用化推进了一步。

研究背景：从单块到多块

现有 BD-LMs 主要在 teacher forcing 范式下训练，模型每一时刻只能看到一个受噪声污染的块，并由干净前缀条件化。近期出现的 diffusion forcing 策略虽然引入了多块间的可见性，但训练状态与多块扩散推理（MultiBD）时「带边界运行集 + 异构噪声模式」的解码条件并不对齐，导致训练-推理差距。

核心方法：MultiTF 训练 + Block Buffer 解码

为弥合这一差距，作者提出两方面的改进：

Multi-block Teacher Forcing（MultiTF）：在干净前缀条件下，对有界的「噪声分组」进行训练，并使用随机化的噪声调度器（noise scheduler），使其更贴合 MultiBD 推理时的真实状态分布。
Block Buffer 解码机制：保留前缀缓存复用、维持输入张量形状静态，并把提升的解码并行度真正转化为推理墙钟时间的加速。

MBD-LMs 本质上是以 BD-LMs 权重为基础，通过 MultiTF 后训练得到的。

实验结果

研究团队在基于 LLaDA2-Mini 的设置上验证方案效果：

单独使用 MBD-LLaDA2-Mini：平均 Tokens Per Forward pass（TPF）由 3.47 提升至 6.19，提升幅度近 80%；
在数学与代码基准上的平均准确率由 79.95% 上升到 81.03%；
与 DMax 推理策略进一步叠加后，MBD-LLaDA2-Mini-DMax 的平均 TPF 达到 9.34，相比基线提升约 2.7 倍，同时平均准确率仅下降 1.02 个百分点。

意义与局限

对扩散 LM 方向而言，MBD-LMs 给出了一种「不动主训练流水线、通过后训练对齐推理分布」的轻量路线，并在解码算法层配套设计了可工程化的 Block Buffer。这一组合在保持准确率的同时显著提升单位前向的 token 产出量，对扩散 LM 的实际部署具有参考价值。不过，论文本身聚焦于扩散范式这一仍属小众的 LLM 路线，对主流自回归模型生态的直接外溢效应有限，且当前验证规模以 LLaDA2-Mini 为主，更大模型与更多任务上的泛化表现仍待后续工作补充。

参考链接：

论文：https://arxiv.org/abs/2606.29215
代码：https://github.com/SJTU-DENG-Lab/mbd-lms