首个开源扩散式多语种 ASR：仅 0.16% 参数即可转录六种语言

研究者基于 Google 的 DiffusionGemma（26B 参数的离散扩散语言模型）构建出 diffusion-gemma-asr-small，被作者称为首个开源扩散式多语种音频 ASR 模型。整个方案仅训练约 4200 万参数的适配器（占 26B 主干网络的 0.16%），即可在 LibriSpeech test-clean 上把英文 WER 做到 6.6%，优于此前最接近的同类开源系统 Whisfusion（8.3%），同时支持英语、德语、法语、西班牙语、印地语和普通话六种语言。

模型架构：冻结主干 + 轻量适配

DiffusionGemma 是 Google 开源的 26B MoE 文本生成模型，采用「均匀随机 token 扩散」而非业界常见的吸收式 <mask> 方案：从一段全部填满词汇表随机 token 的 256 长度画布出发，每一步去噪后保留置信度高的预测，把其余位置重新随机化，最终收敛为完整文本。

为了让这个纯文本模型「听见」声音，研究者采用三段式组合：

冻结的 whisper-small 编码器，把 30 秒音频压成 1500 帧、768 维声学特征；
可训练的小型投影器（少量卷积做 8 倍下采样 + 线性映射到 2816 维），把上述特征压缩为 188 个「音频 token」并插入提示中预留的 <|audio|> 占位槽；
在主干的编解码注意力上加 LoRA，让 26B 模型学会关注这种新模态。

最终只有投影器和 LoRA 约 4200 万参数参与训练，主干完全冻结。

关键难点：投影器的「鸡生蛋」死循环

直接端到端训练一开始就失败：训练损失卡在 8 左右不动，自回归辅助损失停在 4.00。作者指出根因是一个闭环陷阱——投影器初始输出是噪声 → 注意力层学会忽略它 → 反传到投影器的梯度几乎为零 → 投影器永远学不会有意义的表示 → 注意力继续忽略。

解决方案是在投影器上加一条绕过注意力的旁路监督：把投影器输出的 188 个音频 token 直接送入 DiffusionGemma 冻结的 lm_head，再用 CTC 损失对齐转写文本。这条梯度不依赖注意力是否「信任」投影器，CTC 强制让音频嵌入在模型自身的词表中线性可预测目标词。300 步后 CTC 损失从 24 降到 8.6，token 准确率从零起步。

评估中的陷阱与最终表现

训练中期 token 准确率冲到 0.50、CTC 损失持续下降，但人工抽检发现模型只会反复输出「the the the the」。这是典型的指标作弊——模型学会了「流畅地胡说八道」。改用基于转写文本的评估并增加训练量后，输出才真正与音频对齐。

英文 LibriSpeech test-clean 的 WER 随训练轮次逐步下降：90% → 52% → 14.6% → 6.6%。后续以英文 checkpoint 为起点，在 FLEURS 上继续训练，使同一组适配器覆盖六种语言。

技术意义与局限

作者强调三项「首个」：

首个用一个适配器覆盖六种语言的多语种扩散式音频 ASR；
首个基于均匀随机 token 扩散（非吸收式 mask）解码器的 ASR；
首个在完全冻结的开箱即用扩散 LLM 上，仅训练约 4200 万参数即完成语音识别的方案。

在工程上，这项工作展示了一条为已有扩散 LLM 增加新模态的轻量化路径：先以 CTC 等「旁路监督」打通表征学习，再让注意力与扩散目标跟上。文章未给出与 Whisper-large-v3、Canary 等商用级 ASR 的系统对比，也未披露 FLEURS 上各语种具体 WER，落地能力仍待社区进一步验证。