研究：纯强化学习在临床协议执行任务中表现不及监督微调

arXiv 上发表的一篇论文研究了强化学习（RL）在临床协议执行智能体中的应用，结果显示纯 RL 在 FHIR 临床任务上的通过率明显低于基于规则的监督微调（SFT），并系统识别出阻碍 RL 收敛的两类结构性障碍。

研究背景与动机

临床协议执行类任务——例如核对化验指标、应用阈值阈值、下达结构正确的 FHIR 医嘱——天然适合「世界反馈强化学习」：一旦临床领域专家将决策逻辑编码为验证器，该验证器即可对无限次推演结果打分，无需逐回合人工标注。然而，RL 的有效训练依赖可靠的反馈通道和足够的基座模型能力。

基准审计与改进

作者首先对 MedAgentBench v1/v2 进行审计，发现存在 41.7% 的「静默完成」上限——智能体在不做任何操作的情况下，就能拿到该比例任务的满分。这种设定使「不作为」成为 RL 的优势策略，导致训练难以学到有效行为。为此，作者构建了改进版基准 MedAgentBench-v3（MAB-v3），共包含 508 个任务，将静默完成率压低至 8.9%。

两类结构性障碍

使用 Qwen3-8B 作为基座进行训练，论文识别出阻碍 RL 学习的两类结构性障碍：

能力天花板：20 类任务中有 10 类的基座性能为 0%，完全没有梯度信号可供 RL 利用；
格式-知识壁垒：20 类中有 3 类需要精确的临床编码（如 ICD、CPT 码），这些知识无法通过环境探索自行发现。

RL 与 SFT 的效果对比

在 MAB-v3 上的实验结果如下：

纯 RL 训练后 pass@1 为 18.2%；
基于规则的 SFT 训练后 pass@1 为 34.1%；
两者 15.9 个百分点的差距，可完全归因于上述两类障碍。

实践建议

论文提出了「决策 / 格式-知识 / 查找」三分类法，用于预测某一类临床任务是否适合纯 RL 学习，并给出明确处方：先用 SFT 注入精确的领域编码知识，再用 RL 学习条件判断逻辑。这一分层框架对医疗 AI 及其他依赖精确领域知识的智能体场景具有借鉴意义，也提示业界在医疗垂直领域落地 RL 方案时，需先评估基座能力与知识结构是否满足基本前提。