GroundEval：用确定性方法替代 LLM 评判的智能体评估框架

近日，arXiv 上发表了一篇题为《A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation》的论文，提出了一种名为 GroundEval 的智能体评估框架。该方法用确定性测试取代传统的 LLM 评判（LLM-as-judge），能够检验智能体在回答前是否真正检索、获取并引用了所依赖的证据，从而弥补现有评估方式在「证据路径」上的盲区。

为什么需要确定性评估

随着 AI 智能体越来越多地接入工具、检索外部信息并执行多步推理，单纯让另一个大模型当「裁判」来打分已难以识别其中隐藏的问题。论文指出，LLM 评判擅长评估最终答案是否合理，但难以判断智能体在过程中是否真的做了正确的事情，例如：

在宣称「找不到」之前是否真的检索过；
是否只依据当时可访问的证据作答；
是否使用了正确的因果机制，而非看似合理但错误的解释。

三个评估轨道：Silence、Perspective、Counterfactual

GroundEval 通过域配置（domain configuration）自动生成问题，让智能体自主选择作答方式，然后同时对最终答案和执行轨迹进行打分。框架聚焦三类 LLM 评判难以捕捉的失败模式，对应三条评估轨道：

Silence（沉默）：智能体是否在确认信息缺失后才给出「无」这一答案；
Perspective（视角）：智能体是否仅基于其在相关时点可访问的证据进行推理；
Counterfactual（反事实）：智能体是否采用了正确的因果机制，而非仅仅是一个「看起来合理」的答案。

每条轨道都产出结构化的逐题诊断，将工具调用与智能体的逐轮叙述（turn-level narration）配对呈现，让分数可被逐条审查，而不仅是一个汇总指标。

关键案例：LLM 评判与确定性评估的巨大分歧

论文给出了一个典型案例：两个前沿 LLM 评判模型对同一条「看起来合理」的智能体回答分别打出了 0.85 及更高的分数。然而，GroundEval 通过检查执行轨迹发现，该智能体在作答前并未真正检索其答案所依赖的那份文档，因此确定性评分仅为 0.000。

这一差异说明，仅凭答案本身的合理度无法判断智能体是否真正「用对了证据」——而这恰恰是真实场景中部署智能体时最需要验证的一点。

价值与局限

GroundEval 的核心价值在于把「是否真的查证过」变成一个可重复、可审计的确定性测试，避免 LLM 评判被表面流畅的答案误导。论文作者也提示，这种「看似合理、实则无据」的失败模式在其实例研究中并不罕见，是当前基于最终答案或 LLM 评判的方法「按设计就无法发现的」。

需要指出的是，GroundEval 的适用效果取决于域配置的质量，且目前仍是一篇学术研究论文（arXiv:2606.22737），尚未成为业界广泛采用的统一标准。对于关心智能体可信部署的团队来说，这一方向值得持续关注。