55 个 LLM 互评盲测:同家族偏见普遍存在
研究者搭建开源框架让 55 个模型两两盲评 2.2 万次,发现 8 个家族的同源偏见均显著,Qwen 偏袒自家 +0.9…
- 重要性
- 65
- 新颖性
- 72
- 影响面
- 62
- 可信度
- 60
- 实质性
- 82
一项名为「Multivac Evaluation」的开源研究收集了 55 个来自 11 个开发者家族的 LLM,让它们在 286 场评估、198 道人工命题上互相盲评,最终累计获得 22,254 条有效判断。结果显示,几乎所有样本充足的家族都存在统计显著的「同家族评分偏差」,其中既有常见的「自我偏袒」,也出现了反向贬低自家模型的异常现象。代码与数据集采用 MIT 协议开源,研究者已在 GitHub 与项目站点同步发布论文初稿。
实验设计:N×N 盲评矩阵
研究者没有设置单一「裁判」模型,而是让 N 个模型两两互评、排除自我打分,构成一个对称的评价网络。整体覆盖:
- 286 次完整评测
- 198 道作者手写题目
- 55 个模型,覆盖 11 个家族
- 22,254 条有效判断
所有题目由研究者本人撰写,目的是规避「问题同质化」对结论的干扰。这一规模在社区自建评测中已属罕见,但作者也坦承「所有题目都是我一个人写的」是主要软肋。
同家族偏差:8 个家族无一幸免
在样本足够的 8 个家族中,同家族评分偏差均达到 p < 0.05 的显著性水平,其中 7 个在 Bonferroni 校正后仍然显著。在 0–10 分量表上,各家族给出同家族模型评分的均值偏移为:
- Qwen:+0.91
- xAI:+0.75
- Anthropic:+0.62
- MiniMax:+0.31
- OpenAI:+0.23
- Google:-0.59
- Meta:-0.68
- Mistral:-1.02
正向偏袒符合「自我偏好」的直觉,但 Mistral 给自己家族模型打出 -1.02 的反向折扣,是偏移绝对值最大的案例,作者表示此前未见类似报告,并推测可能源于训练数据、RLHF 偏好分布或风格自我惩罚机制。
排行榜掩盖了什么
在 9 个细分主题池中,竟有 6 个不同模型分别占据榜首,「最强模型」这一表述因此被作者判定为「错误的问题」。此外,代码类题目是评分分歧最严重的赛道,裁判间不一致度几乎是「元对齐」类题目的两倍,意味着单一裁判在代码评测上尤其不稳。作者还举出实例:在一次并发测试中,裁判们集体偏好一个测试运行失败的答案,说明「LLM 评 LLM」在可执行验证场景下存在被颠覆的风险。
作者呼吁的四条加固方向
为提升结论可信度,作者公开征求方法论批评,并列出后续工作的优先项:
- 锚定客观真值:代码与数学题用测试套件或验证器判分,仅在不可执行的场景保留 LLM 裁判。
- 分离偏差与质量:在同一响应上比较「同家族裁判」与「异家族裁判」的打分,通过混合效应模型剥离答案本身质量的影响。
- 用更优聚合替代均值:引入 Bradley–Terry 或 IRT 模型,联合估计裁判宽松度与题目难度,给出更诚实的排名。
- 检验机制本身:若偏差源于风格自识别,则对回答做改写剥离表层风格后,偏差应缩小——这一反事实尚未被系统验证。
研究者也在结尾承认,两大软肋——「仍是 LLM 在评 LLM」与「题目全部由本人撰写」——必须在引入人类相关性研究和多作者题库后才能真正消除。
