研究论文
研究:纯强化学习在临床协议执行任务中表现不及监督微调
arXiv 论文发现纯 RL 在 FHIR 临床任务中仅达 18.2% 通过率,显著低于规则 SFT 的 34.1%。
2026.07.03 · 周五约 2 分钟阅读
arXiv 上发表的一篇论文研究了强化学习(RL)在临床协议执行智能体中的应用,结果显示纯 RL 在 FHIR 临床任务上的通过率明显低于基于规则的监督微调(SFT),并系统识别出阻碍 RL 收敛的两类结构性障碍。
研究背景与动机
临床协议执行类任务——例如核对化验指标、应用阈值阈值、下达结构正确的 FHIR 医嘱——天然适合「世界反馈强化学习」:一旦临床领域专家将决策逻辑编码为验证器,该验证器即可对无限次推演结果打分,无需逐回合人工标注。然而,RL 的有效训练依赖可靠的反馈通道和足够的基座模型能力。
基准审计与改进
作者首先对 MedAgentBench v1/v2 进行审计,发现存在 41.7% 的「静默完成」上限——智能体在不做任何操作的情况下,就能拿到该比例任务的满分。这种设定使「不作为」成为 RL 的优势策略,导致训练难以学到有效行为。为此,作者构建了改进版基准 MedAgentBench-v3(MAB-v3),共包含 508 个任务,将静默完成率压低至 8.9%。
两类结构性障碍
使用 Qwen3-8B 作为基座进行训练,论文识别出阻碍 RL 学习的两类结构性障碍:
- 能力天花板:20 类任务中有 10 类的基座性能为 0%,完全没有梯度信号可供 RL 利用;
- 格式-知识壁垒:20 类中有 3 类需要精确的临床编码(如 ICD、CPT 码),这些知识无法通过环境探索自行发现。
RL 与 SFT 的效果对比
在 MAB-v3 上的实验结果如下:
- 纯 RL 训练后 pass@1 为 18.2%;
- 基于规则的 SFT 训练后 pass@1 为 34.1%;
- 两者 15.9 个百分点的差距,可完全归因于上述两类障碍。
实践建议
论文提出了「决策 / 格式-知识 / 查找」三分类法,用于预测某一类临床任务是否适合纯 RL 学习,并给出明确处方:先用 SFT 注入精确的领域编码知识,再用 RL 学习条件判断逻辑。这一分层框架对医疗 AI 及其他依赖精确领域知识的智能体场景具有借鉴意义,也提示业界在医疗垂直领域落地 RL 方案时,需先评估基座能力与知识结构是否满足基本前提。
