RoPoLL：用几何中位数提升 LLM 评审团鲁棒性

在 LLM 能力评估中，由多个大模型组成「评审团」（Panel of LLM Evaluators，PoLL）并汇总共识分数，已成为替代单一评判模型的常用做法。然而，这套流程在面对个别评委出现偏差时有多可靠，一直缺乏系统的理论分析。来自 arXiv 的论文《RoPoLL: Robust Panel of LLM Judges》正式将 LLM 评审团建模在 Huber 污染模型之下，并提出了一种名为 RoPoLL 的鲁棒聚合方案。

现有 PoLL 的失效模式

论文首先指出，传统 PoLL 在任何程度的正面污染下都可能产生无界偏差（unbounded bias），且这一缺陷与评审团规模无关。问题的根源在于个别评委的典型失败模式——模式坍缩（mode collapse）、谄媚（sycophancy）以及安全拒答（safety refusal）——会使其打分产生系统性偏移，导致简单求均值或多数投票的聚合方式被严重污染。这一观察将 LLM 评审团问题重新定位为经典的鲁棒均值估计问题。

RoPoLL：几何中位数聚合

RoPoLL 保留了原有的评审团结构，但将聚合函数替换为几何中位数（Geometric Median，GM）。该选择带来两项关键优势：

无需调参（tuning-free）；
在有限样本下达到最优崩溃点（breakdown point）1/2，即超过半数评委被攻陷时估计才会失稳。

论文给出了 RoPoLL 的有限样本误差上界，并推导了匹配的信息论极小极大下界。两者在参数速率 σ·√(d/N) 上一致，但在崩溃底限（breakdown floor）上相差 √d 倍——这代表了多项式时间算法相对于不可计算的 Tukey 半空间中位数所付出的统计-计算鸿沟。

实验：13 个评委、3 个基准、4 种污染

研究在 13 个开源权重评委（参数规模 4B 至 675B）、三个奖励模型基准以及四种污染机制（污染率最高 50%）上进行了系统评测。结果显示：

在所有偏倚型污染下，RoPoLL 全面优于 PoLL；
在匹配算力条件下，对跨维度攻击的提升约 19%；
在重尾拜占庭对手下，优势可达数个数量级。

最具说服力的对比来自一个极端配置：仅由 3 个 38B 模型组成的 RoPoLL 委员会，在 HelpSteer-2 基准 30% 双峰随机污染下，以 1.31 倍的准确度击败 675B 的 Mistral-Large-3——相当于用 1/18 的参数取得更好的评估质量。论文同时设置了 Noisy-GT 对照组，确认上述收益来自对偏倚型污染的鲁棒性，而非单纯对噪声的容忍。

意义与局限

RoPoLL 为 LLM 评估流程提供了一条低成本、高鲁棒性的改造路径：与其堆叠更大或更多的评委，不如改用对异常值不敏感的聚合函数。但论文也明确指出，多项式时间 RoPoLL 与理论上最优的 Tukey 半空间中位数之间存在 √d 的崩溃底限差距，这一统计-计算权衡在实际部署中是否会成为瓶颈，仍有待后续工作检验。