桃子桃子快讯
返回首页
研究论文

RareDxR1:面向罕见病诊断的端到端推理大模型

arXiv 论文提出 RareDxR1,以端到端推理方式直接从非结构化临床笔记做罕见病鉴别诊断,并设计无需人工标注的训练…

2026.07.02 · 周四2 分钟阅读

近日,一篇发表于 arXiv(编号 2607.00147v1)的研究论文提出 RareDxR1,一个以推理为中心的端到端大语言模型,旨在直接从非结构化临床笔记完成开放域罕见病鉴别诊断。论文指出,罕见病的鉴别诊断对临床医生而言耗时且困难,需要从复杂的患者症状中抽取精确表型,并在庞大的搜索空间内执行多步推理;而现有 AI 方案多依赖流水线式表型抽取或检索增强生成(RAG),容易因预定义本体导致关键信息丢失,并受限于检索瓶颈和决策空间的封闭性。

方法概览

RareDxR1 的核心是绕过结构化表型和封闭决策空间,采用「知识内化 + 自主进化学习」相结合的训练框架。具体包括三项关键设计:

  • 知识深度内化:将原本碎片化的罕见病知识直接写入模型参数,从而规避 RAG 在检索环节的瓶颈与表型本体带来的限制;
  • Reflection-Enhanced Reasoning Sampling(RERS):一种从失败样本中学习的采样策略,可在没有人类专家标注的情况下合成具备专家水平的诊断轨迹,缓解模型生成与临床推理之间的差距;
  • 双层级课程强化学习:通过由浅入深的课程式 RL,让模型逐步掌握罕见病诊断能力。

整体上,这是一种「渐进式端到端」训练思路,把诊断逻辑的学习和知识记忆整合到同一模型中,而不是拆分成多个流水线子模块。

实验与结果

论文报告,RareDxR1 在多个罕见病诊断基准上取得当前最优(state-of-the-art)准确率,被作者称为开放域罕见病诊断方向的「显著突破」。不过,摘要中并未给出具体的基准名称、对比模型和数字,相关细节需要查看正文与附录才能确认。

意义与局限

RareDxR1 的价值在于把罕见病诊断从「依赖结构化表型 + 检索」的模式,推向「直接消化非结构化笔记 + 自主推理」的模式,并在训练侧用 RERS 等机制降低对人工标注的依赖,对临床 NLP 与医疗 Agent 研究具有一定参考意义。需要注意的是,该工作目前仅为 arXiv 预印本,未经过同行评审宣读,且摘要未披露具体基准分数与消融实验细节,结论的稳健性仍有待后续验证。论文作者表示将公开代码与数据集,后续若资源如期发布,将有助于社区复现与进一步对比。

信源