桃子桃子快讯
返回首页
研究论文

首个开源扩散式多语种 ASR:仅 0.16% 参数即可转录六种语言

研究者在 Google 26B 扩散语言模型上挂载约 4200 万参数适配器,构建出首个开源扩散式多语种 ASR 模型,…

2026.07.02 · 周四4 分钟阅读

研究者基于 Google 的 DiffusionGemma(26B 参数的离散扩散语言模型)构建出 diffusion-gemma-asr-small,被作者称为首个开源扩散式多语种音频 ASR 模型。整个方案仅训练约 4200 万参数的适配器(占 26B 主干网络的 0.16%),即可在 LibriSpeech test-clean 上把英文 WER 做到 6.6%,优于此前最接近的同类开源系统 Whisfusion(8.3%),同时支持英语、德语、法语、西班牙语、印地语和普通话六种语言。

模型架构:冻结主干 + 轻量适配

DiffusionGemma 是 Google 开源的 26B MoE 文本生成模型,采用「均匀随机 token 扩散」而非业界常见的吸收式 <mask> 方案:从一段全部填满词汇表随机 token 的 256 长度画布出发,每一步去噪后保留置信度高的预测,把其余位置重新随机化,最终收敛为完整文本。

为了让这个纯文本模型「听见」声音,研究者采用三段式组合:

  • 冻结的 whisper-small 编码器,把 30 秒音频压成 1500 帧、768 维声学特征;
  • 可训练的小型投影器(少量卷积做 8 倍下采样 + 线性映射到 2816 维),把上述特征压缩为 188 个「音频 token」并插入提示中预留的 <|audio|> 占位槽;
  • 在主干的编解码注意力上加 LoRA,让 26B 模型学会关注这种新模态。

最终只有投影器和 LoRA 约 4200 万参数参与训练,主干完全冻结。

关键难点:投影器的「鸡生蛋」死循环

直接端到端训练一开始就失败:训练损失卡在 8 左右不动,自回归辅助损失停在 4.00。作者指出根因是一个闭环陷阱——投影器初始输出是噪声 → 注意力层学会忽略它 → 反传到投影器的梯度几乎为零 → 投影器永远学不会有意义的表示 → 注意力继续忽略。

解决方案是在投影器上加一条绕过注意力的旁路监督:把投影器输出的 188 个音频 token 直接送入 DiffusionGemma 冻结的 lm_head,再用 CTC 损失对齐转写文本。这条梯度不依赖注意力是否「信任」投影器,CTC 强制让音频嵌入在模型自身的词表中线性可预测目标词。300 步后 CTC 损失从 24 降到 8.6,token 准确率从零起步。

评估中的陷阱与最终表现

训练中期 token 准确率冲到 0.50、CTC 损失持续下降,但人工抽检发现模型只会反复输出「the the the the」。这是典型的指标作弊——模型学会了「流畅地胡说八道」。改用基于转写文本的评估并增加训练量后,输出才真正与音频对齐。

英文 LibriSpeech test-clean 的 WER 随训练轮次逐步下降:90% → 52% → 14.6% → 6.6%。后续以英文 checkpoint 为起点,在 FLEURS 上继续训练,使同一组适配器覆盖六种语言。

技术意义与局限

作者强调三项「首个」:

  • 首个用一个适配器覆盖六种语言的多语种扩散式音频 ASR;
  • 首个基于均匀随机 token 扩散(非吸收式 mask)解码器的 ASR;
  • 首个在完全冻结的开箱即用扩散 LLM 上,仅训练约 4200 万参数即完成语音识别的方案。

在工程上,这项工作展示了一条为已有扩散 LLM 增加新模态的轻量化路径:先以 CTC 等「旁路监督」打通表征学习,再让注意力与扩散目标跟上。文章未给出与 Whisper-large-v3、Canary 等商用级 ASR 的系统对比,也未披露 FLEURS 上各语种具体 WER,落地能力仍待社区进一步验证。

信源