研究称主流 LLM 存在医疗分诊性别偏见

一项发表于 arXiv 的研究系统测试了 Gemini 3.5 Flash、Claude Sonnet 4.6 与 GPT-5.4-mini 三款主流大模型在医疗分诊任务中的性别差异表现。研究人员向模型输入一组标准化的神经症状（持续性头痛、视物模糊、晨起恶心、视觉异常），仅改变患者的性别与年龄，统计模型推荐的急诊转诊比例。结果显示，年轻女性获得的急诊建议显著低于同龄男性，且该差距在 65 岁人群中完全消失。

核心数据

实验规模：3 个模型 × 7 个年龄–性别组合 × 每组 30 次试验，共计 630 次分诊请求。
急诊转诊率对比（年轻组）：
- Gemini：女性 0% vs 男性 23.3%
- Claude：女性 6.7% vs 男性 96.7%
- GPT：女性 6.7% vs 男性 66.7%
- 三组差异均达到 p < 0.001 的统计显著性。
严重程度自评中，女性与男性均给出 7–9/10 的相近评分，但分诊路径不同。

偏差机制：诊断替代

研究发现，模型并非简单降低女性患者的紧急程度，而是将其「锚定」到与性别相关的流行病学诊断上。具体而言，年轻女性更多被归类为特发性颅内高压（IIH），该病在育龄女性中发病率较高；同龄男性则更多被归入带有「占位性病变」可能性的通用颅内压增高鉴别诊断。这一诊断上的「合拢」效应把女性患者导向门诊预约，而把男性患者推向急诊通道。

研究意义与局限

论文指出，大模型在临床分诊场景中复现了已有文献记载的人类临床偏差，提示以流行病学先验压制紧急度评估的做法存在风险。作者建议，AI 分诊系统应将紧急度判断与概率性诊断先验解耦，避免性别关联疾病在分诊阶段压低女性患者的转诊优先级。

论文同时开源了全部代码、提示词与原始结果，便于复现。需要注意的是，该工作目前为 arXiv 预印本，尚未经过同行评审，模型名称与版本号也需在正式发表时进一步核实。