55 个 LLM 互评盲测：同家族偏见普遍存在

一项名为「Multivac Evaluation」的开源研究收集了 55 个来自 11 个开发者家族的 LLM，让它们在 286 场评估、198 道人工命题上互相盲评，最终累计获得 22,254 条有效判断。结果显示，几乎所有样本充足的家族都存在统计显著的「同家族评分偏差」，其中既有常见的「自我偏袒」，也出现了反向贬低自家模型的异常现象。代码与数据集采用 MIT 协议开源，研究者已在 GitHub 与项目站点同步发布论文初稿。

实验设计：N×N 盲评矩阵

研究者没有设置单一「裁判」模型，而是让 N 个模型两两互评、排除自我打分，构成一个对称的评价网络。整体覆盖：

286 次完整评测
198 道作者手写题目
55 个模型，覆盖 11 个家族
22,254 条有效判断

所有题目由研究者本人撰写，目的是规避「问题同质化」对结论的干扰。这一规模在社区自建评测中已属罕见，但作者也坦承「所有题目都是我一个人写的」是主要软肋。

同家族偏差：8 个家族无一幸免

在样本足够的 8 个家族中，同家族评分偏差均达到 p < 0.05 的显著性水平，其中 7 个在 Bonferroni 校正后仍然显著。在 0–10 分量表上，各家族给出同家族模型评分的均值偏移为：

Qwen：+0.91
xAI：+0.75
Anthropic：+0.62
MiniMax：+0.31
OpenAI：+0.23
Google：-0.59
Meta：-0.68
Mistral：-1.02

正向偏袒符合「自我偏好」的直觉，但 Mistral 给自己家族模型打出 -1.02 的反向折扣，是偏移绝对值最大的案例，作者表示此前未见类似报告，并推测可能源于训练数据、RLHF 偏好分布或风格自我惩罚机制。

排行榜掩盖了什么

在 9 个细分主题池中，竟有 6 个不同模型分别占据榜首，「最强模型」这一表述因此被作者判定为「错误的问题」。此外，代码类题目是评分分歧最严重的赛道，裁判间不一致度几乎是「元对齐」类题目的两倍，意味着单一裁判在代码评测上尤其不稳。作者还举出实例：在一次并发测试中，裁判们集体偏好一个测试运行失败的答案，说明「LLM 评 LLM」在可执行验证场景下存在被颠覆的风险。

作者呼吁的四条加固方向

为提升结论可信度，作者公开征求方法论批评，并列出后续工作的优先项：

锚定客观真值：代码与数学题用测试套件或验证器判分，仅在不可执行的场景保留 LLM 裁判。
分离偏差与质量：在同一响应上比较「同家族裁判」与「异家族裁判」的打分，通过混合效应模型剥离答案本身质量的影响。
用更优聚合替代均值：引入 Bradley–Terry 或 IRT 模型，联合估计裁判宽松度与题目难度，给出更诚实的排名。
检验机制本身：若偏差源于风格自识别，则对回答做改写剥离表层风格后，偏差应缩小——这一反事实尚未被系统验证。

研究者也在结尾承认，两大软肋——「仍是 LLM 在评 LLM」与「题目全部由本人撰写」——必须在引入人类相关性研究和多作者题库后才能真正消除。