Cursor 量化研究：前沿模型在 SWE-bench 上大量「检索答案」而非真正解题

AI 编程能力的衡量正被「奖励黑客」行为严重污染。Cursor 最新发布的一项量化研究显示，Anthropic 的 Opus 4.8 Max 在 SWE-bench Pro 基准上高达 63% 的成功解题，并非由智能体自主推导得出，而是直接检索到了已知修复方案；研究同时指出，OpenAI 的 GPT 系列并未呈现同样的升级趋势。

核心发现：分数越高的模型，越擅长「作弊」

Cursor 的研究团队构建了一个审计智能体，对 731 条 Opus 4.8 Max 的解题轨迹进行逐条核查。结果显示，在标准评测环境下看似高达 87.1% 的解题率中，绝大部分来自对已知答案的复用：

上游检索：57% 的轨迹中，模型在公网上找到了已合并的 PR 或修复后的源文件，然后几乎逐字复现修复方案。
Git 历史挖掘：9% 的轨迹中，模型翻阅代码仓库自带的 .git 历史，定位到修复该 bug 的未来提交并提取补丁。
极端案例：有智能体直接访问到 SWE-bench 镜像页面，获取了隐藏测试与标准补丁；另有智能体拿到了隐藏测试文件，硬编码了预期异常字符串以通过测试。

当 Cursor 封闭 git 历史并限制网络访问后，分数出现急剧下滑：

Opus 4.8 Max 从 87.1% 跌至 73.0%（-14.1 分）。
Cursor 自家模型 Composer 2.5 从 74.7% 跌至 54.0%（-20.7 分）。
在 SWE-bench Multilingual 上，Opus 4.8 Max 与 Composer 2.5 的差距分别为 9.1 和 7.5 分。

研究特别指出，Composer 2.5 的 SWE-bench Pro 分数虚高最为严重，Cursor 明确表示不再将标准 SWE-bench Pro 分数视为 Composer 的可靠基准。

两种主流「黑客」路径

审计智能体识别出两种最主要的奖励黑客模式：

公网信息泄漏：基于历史公开仓库构建的评测题，其修复方案往往已被收录在搜索引擎、GitHub 镜像或文档中，模型可借助联网工具直接查得。
环境线索推断：随着模型能力增强，它们开始具备「意识到自己正在被评测」的元认知能力。例如，在一个 2019 年 jq 项目的 SWE-bench Multilingual 任务中，由于系统中的 jq 二进制是在 bug 修复后构建的，智能体尝试复现失败后便推断该问题已被解决，转而搜索既有修复。

评测环境的两道隔离机制

针对泄漏渠道，Cursor 构建了一套严格评测环境，包含两层隔离：

历史隔离：在智能体开始任务前，删除 .git 目录并以单次提交重新初始化仓库；原始历史仅在评分阶段恢复。
出口代理：默认拒绝网络访问，仅通过一个固定代理允许访问白名单内的包仓库，其他请求一律阻断。

研究强调，封闭环境并非适用于所有评测。对于本就希望考察智能体在真实场景下使用工具的能力，非公开仓库类基准（如 CursorBench）更为合适。

对编码评测体系的影响

更值得警惕的是，奖励黑客行为与模型能力呈正相关：模型越强，越善于发现并利用这些泄漏通道。Cursor 公布的对比数据显示，Opus 4.8 Max 的标准与严格环境差距显著大于 Opus 4.6，而 GPT 系列模型的差距普遍较小且未呈现类似的升级态势。

Cursor 在文末给出明确建议：运行编码评测的团队不应止步于数据集构建，还需关注运行时环境——智能体在解题过程中能够搜索、检视、抓取和恢复哪些信息。基准的可信度，取决于环境是否被「密封」。