桃子桃子 AI 快讯
返回首页
研究论文

研究称主流 LLM 存在医疗分诊性别偏见

arXiv 论文显示,Gemini、Claude、GPT 等大模型对相同神经症状给出不同分诊建议,年轻女性急诊转诊率显著…

2026.06.29 · 周一2 分钟阅读评分 71
评分细项加权总分 71
重要性
72
新颖性
73
影响面
68
可信度
62
实质性
78

一项发表于 arXiv 的研究系统测试了 Gemini 3.5 Flash、Claude Sonnet 4.6 与 GPT-5.4-mini 三款主流大模型在医疗分诊任务中的性别差异表现。研究人员向模型输入一组标准化的神经症状(持续性头痛、视物模糊、晨起恶心、视觉异常),仅改变患者的性别与年龄,统计模型推荐的急诊转诊比例。结果显示,年轻女性获得的急诊建议显著低于同龄男性,且该差距在 65 岁人群中完全消失。

核心数据

  • 实验规模:3 个模型 × 7 个年龄–性别组合 × 每组 30 次试验,共计 630 次分诊请求。
  • 急诊转诊率对比(年轻组):
    • Gemini:女性 0% vs 男性 23.3%
    • Claude:女性 6.7% vs 男性 96.7%
    • GPT:女性 6.7% vs 男性 66.7%
    • 三组差异均达到 p < 0.001 的统计显著性。
  • 严重程度自评中,女性与男性均给出 7–9/10 的相近评分,但分诊路径不同。

偏差机制:诊断替代

研究发现,模型并非简单降低女性患者的紧急程度,而是将其「锚定」到与性别相关的流行病学诊断上。具体而言,年轻女性更多被归类为特发性颅内高压(IIH),该病在育龄女性中发病率较高;同龄男性则更多被归入带有「占位性病变」可能性的通用颅内压增高鉴别诊断。这一诊断上的「合拢」效应把女性患者导向门诊预约,而把男性患者推向急诊通道。

研究意义与局限

论文指出,大模型在临床分诊场景中复现了已有文献记载的人类临床偏差,提示以流行病学先验压制紧急度评估的做法存在风险。作者建议,AI 分诊系统应将紧急度判断与概率性诊断先验解耦,避免性别关联疾病在分诊阶段压低女性患者的转诊优先级。

论文同时开源了全部代码、提示词与原始结果,便于复现。需要注意的是,该工作目前为 arXiv 预印本,尚未经过同行评审,模型名称与版本号也需在正式发表时进一步核实。

信源