开发者发布 eval-harness：评测智能体 CLI 工具的开源框架

近日，Reddit 用户 ScottRBK 在 r/LocalLLaMA 板块发布了一款名为 eval-harness 的开源评测框架。该工具面向 LLM 智能体（agentic）类 CLI 工具的端到端效果评估，意在帮助使用者在本地对模型与 CLI 框架的组合能力进行系统化对比，减少仅凭「感觉」做选型的偏差。

项目背景与动机

作者提到，当前使用大语言模型的方式越来越多地被各类 CLI 智能体框架所承载，而非直接与模型对话。随着 Claude Code、Aider、Cursor CLI 等智能体工具的普及，「哪个模型好用」已不再是唯一问题——同样重要的是「模型在某个 CLI harness 中表现如何」。

作者援引 Google 团队在 Kaggle 上发布的一篇论文指出：在智能体场景下，底层 LLM 对整体效果的贡献可能只占约 10%，其余更大比例取决于 harness 的设计与上下文处理。这一观点与作者自身经验相符，也成为其构建 eval-harness 的主要动因之一。

工具定位与工作方式

eval-harness 的设计目标并不是一个公开统一的基准排行榜，而是一套允许使用者维护「私有评估清单」的脚手架：

评估题目和参考答案仅保存在使用者的本地仓库中，避免与公开评测集重叠造成数据污染；
提供示例评测，覆盖不同评测题型与模式，便于使用者按需扩展；
附带一组「技能」提示词，可让 CLI 智能体在评测结束后辅助起草新的评估用例；
使用者可以根据最近一次不理想的会话，让智能体将失败点反向整理为对应评估题。

当前能力与局限

作者坦承，这是其第一次从零搭建一套评测框架，此前主要使用过 DeepEval 等已有方案，因此 eval-harness 目前的定位是「学习成果 + 可用工具」而非成熟产品，仍有不少可改进之处。

需要留意的是：

由 CLI 智能体自动生成的评估往往比较脆弱，需要人工逐步核查其逻辑；
建议对照仓库中已提供的示例模式进行扩展，避免智能体偏离设计意图；
工具效果与本地硬件（如作者提到的双 3090 运行 Qwen3.6-27B）以及具体 CLI 框架选择紧密相关。

适用人群与反馈

该工具主要面向像作者一样既在本地跑模型、又在工作流中大量依赖 CLI 智能体的开发者。对于正在为「该把哪个模型放进哪个 harness」而纠结，并希望有一套可以沉淀私有评测题目、随项目迭代持续积累的工具的读者，可以按需 fork 适配。

工具开源地址已在原帖给出（GitHub: ScottRBK/eval-harness），作者在帖中表示欢迎任何反馈，希望继续完善框架。