桃子桃子快讯
返回首页
研究论文

扩散语言模型用于放射学报告草拟,速度提升 4 倍

arXiv 新论文将扩散语言模型 DiffusionGemma-26B 适配到医学场景,在医疗 VQA 上与同规模自回归…

2026.07.03 · 周五3 分钟阅读

近日 arXiv 上发表了一项题为《Discrete Diffusion Language Models for Interactive Radiology Report Drafting》的研究,将离散扩散语言模型引入医学报告场景,提出了放射科医生可交互编辑的草拟工作流。研究显示,经过 LoRA 微调的扩散模型在医疗视觉问答任务上与同规模自回归模型持平甚至略胜,且解码速度快 3.5–4.4 倍。

研究背景:医学基础模型几乎全是自回归

当前主流医学基础模型几乎全部基于自回归(AR)范式——模型从左到右逐 token 生成文本。扩散语言模型则采用不同的思路:从一张被噪声完全覆盖的 token「画布」出发,通过迭代去噪双向地还原文本,在通用 NLP 任务中已逐步具备与 AR 模型竞争的能力。该研究试图回答一个具体问题:扩散范式能否直接迁移到医学领域,并带来 AR 缺乏的新能力?

模型与对比:MoE 扩散架构对标 Gemma-4-26B

研究团队选用了一款专家混合(MoE)架构的扩散语言模型 DiffusionGemma-26B,并在完全相同的 LoRA 微调配方下,与其同规模的 AR 兄弟模型 Gemma-4-26B 进行头对头对比。评测在多个医疗视觉问答(VQA)数据集上展开,并使用一个对「冗长度」鲁棒的大模型作为评判器。

  • 在所有数据集上,扩散模型与 AR 模型持平或更优;
  • 微调后实际激活参数仅 3.8B,性能仍可比肩部分前沿视觉语言模型;
  • 解码速度达到 AR 同类的 3.5–4.4 倍。

这一结果说明,离散扩散在医学视觉语言任务上已具备替代 AR 的潜力,且在推理效率上具有明显优势。

核心新能力:任意位置填充支持交互式草拟

研究最具差异化的贡献在于工作流层面。由于扩散模型对整张 token 画布双向去噪,它天然支持「任意顺序填充」——放射科医生可以在报告中先固定若干片段,再让模型补全片段之间的内容。AR 模型虽然也能做填充(infill),但论文指出其在该任务上「效果逊于扩散」。

这一能力契合真实放射学报告的特点:不同医生、不同医院写出的报告往往风格不一、用语简略甚至前后矛盾。借助扩散模型的交互式草拟,医生可以以「先骨架、后补全」的方式逐步打磨报告,而不必从头逐字生成。

局限与展望

研究也存在边界:评测范围限于医疗 VQA 而非真实放射学报告生成;3.8B 的激活参数虽轻量,但完整模型规模为 26B,部署成本仍不可忽视;LoRA 微调是否能复现到更大规模或更多模态尚未验证。论文未公开代码与权重,后续若能放出实现,将更便于社区复现与扩展。整体而言,这项工作为扩散语言模型在专业领域的应用提供了新的范式参考。

信源