桃子桃子快讯
返回首页
工具

开发者发布 eval-harness:评测智能体 CLI 工具的开源框架

Reddit 用户 ScottRBK 开源 eval-harness,用于本地评估 LLM 智能体 CLI 框架的效果,…

2026.07.06 · 周一3 分钟阅读

近日,Reddit 用户 ScottRBK 在 r/LocalLLaMA 板块发布了一款名为 eval-harness 的开源评测框架。该工具面向 LLM 智能体(agentic)类 CLI 工具的端到端效果评估,意在帮助使用者在本地对模型与 CLI 框架的组合能力进行系统化对比,减少仅凭「感觉」做选型的偏差。

项目背景与动机

作者提到,当前使用大语言模型的方式越来越多地被各类 CLI 智能体框架所承载,而非直接与模型对话。随着 Claude Code、Aider、Cursor CLI 等智能体工具的普及,「哪个模型好用」已不再是唯一问题——同样重要的是「模型在某个 CLI harness 中表现如何」。

作者援引 Google 团队在 Kaggle 上发布的一篇论文指出:在智能体场景下,底层 LLM 对整体效果的贡献可能只占约 10%,其余更大比例取决于 harness 的设计与上下文处理。这一观点与作者自身经验相符,也成为其构建 eval-harness 的主要动因之一。

工具定位与工作方式

eval-harness 的设计目标并不是一个公开统一的基准排行榜,而是一套允许使用者维护「私有评估清单」的脚手架:

  • 评估题目和参考答案仅保存在使用者的本地仓库中,避免与公开评测集重叠造成数据污染;
  • 提供示例评测,覆盖不同评测题型与模式,便于使用者按需扩展;
  • 附带一组「技能」提示词,可让 CLI 智能体在评测结束后辅助起草新的评估用例;
  • 使用者可以根据最近一次不理想的会话,让智能体将失败点反向整理为对应评估题。

当前能力与局限

作者坦承,这是其第一次从零搭建一套评测框架,此前主要使用过 DeepEval 等已有方案,因此 eval-harness 目前的定位是「学习成果 + 可用工具」而非成熟产品,仍有不少可改进之处。

需要留意的是:

  • 由 CLI 智能体自动生成的评估往往比较脆弱,需要人工逐步核查其逻辑;
  • 建议对照仓库中已提供的示例模式进行扩展,避免智能体偏离设计意图;
  • 工具效果与本地硬件(如作者提到的双 3090 运行 Qwen3.6-27B)以及具体 CLI 框架选择紧密相关。

适用人群与反馈

该工具主要面向像作者一样既在本地跑模型、又在工作流中大量依赖 CLI 智能体的开发者。对于正在为「该把哪个模型放进哪个 harness」而纠结,并希望有一套可以沉淀私有评测题目、随项目迭代持续积累的工具的读者,可以按需 fork 适配。

工具开源地址已在原帖给出(GitHub: ScottRBK/eval-harness),作者在帖中表示欢迎任何反馈,希望继续完善框架。

信源