GroundEval:用确定性方法替代 LLM 评判的智能体评估框架
arXiv 论文提出 GroundEval,用确定性轨迹检查替代 LLM 评判,揪出智能体「看似合理、实则无据」的失败模…
近日,arXiv 上发表了一篇题为《A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation》的论文,提出了一种名为 GroundEval 的智能体评估框架。该方法用确定性测试取代传统的 LLM 评判(LLM-as-judge),能够检验智能体在回答前是否真正检索、获取并引用了所依赖的证据,从而弥补现有评估方式在「证据路径」上的盲区。
为什么需要确定性评估
随着 AI 智能体越来越多地接入工具、检索外部信息并执行多步推理,单纯让另一个大模型当「裁判」来打分已难以识别其中隐藏的问题。论文指出,LLM 评判擅长评估最终答案是否合理,但难以判断智能体在过程中是否真的做了正确的事情,例如:
- 在宣称「找不到」之前是否真的检索过;
- 是否只依据当时可访问的证据作答;
- 是否使用了正确的因果机制,而非看似合理但错误的解释。
三个评估轨道:Silence、Perspective、Counterfactual
GroundEval 通过域配置(domain configuration)自动生成问题,让智能体自主选择作答方式,然后同时对最终答案和执行轨迹进行打分。框架聚焦三类 LLM 评判难以捕捉的失败模式,对应三条评估轨道:
- Silence(沉默):智能体是否在确认信息缺失后才给出「无」这一答案;
- Perspective(视角):智能体是否仅基于其在相关时点可访问的证据进行推理;
- Counterfactual(反事实):智能体是否采用了正确的因果机制,而非仅仅是一个「看起来合理」的答案。
每条轨道都产出结构化的逐题诊断,将工具调用与智能体的逐轮叙述(turn-level narration)配对呈现,让分数可被逐条审查,而不仅是一个汇总指标。
关键案例:LLM 评判与确定性评估的巨大分歧
论文给出了一个典型案例:两个前沿 LLM 评判模型对同一条「看起来合理」的智能体回答分别打出了 0.85 及更高的分数。然而,GroundEval 通过检查执行轨迹发现,该智能体在作答前并未真正检索其答案所依赖的那份文档,因此确定性评分仅为 0.000。
这一差异说明,仅凭答案本身的合理度无法判断智能体是否真正「用对了证据」——而这恰恰是真实场景中部署智能体时最需要验证的一点。
价值与局限
GroundEval 的核心价值在于把「是否真的查证过」变成一个可重复、可审计的确定性测试,避免 LLM 评判被表面流畅的答案误导。论文作者也提示,这种「看似合理、实则无据」的失败模式在其实例研究中并不罕见,是当前基于最终答案或 LLM 评判的方法「按设计就无法发现的」。
需要指出的是,GroundEval 的适用效果取决于域配置的质量,且目前仍是一篇学术研究论文(arXiv:2606.22737),尚未成为业界广泛采用的统一标准。对于关心智能体可信部署的团队来说,这一方向值得持续关注。
