Cognition 发布 FrontierCode 代码质量基准

AI 编程公司 Cognition（Devin 背后的团队）正式发布新型编码评测基准 FrontierCode。与 SWE-Bench 等第一代基准不同，FrontierCode 的核心创新在于不再仅仅评估「代码能否通过单元测试」，而是衡量「代码是否会被维护者真正合并进生产仓库」，将评测维度从功能正确性推进到整体代码质量。

三大核心设计差异

FrontierCode 在评测理念上做了三项关键调整：

首次评测代码可合并性：评估端到端的代码质量，涵盖正确性、测试质量、范围控制、代码风格以及与仓库规范的契合度，组合使用单元测试、评分量表（rubric）和新型验证器进行评分。
由开源维护者亲自构建：20 余位世界级开源开发者从自己维护的代码库中提炼出真实、多样且具挑战性的任务，每个任务平均耗时超过 40 小时，并自行定义「可合并」的标准。
严格的人工质量控制：由于评分量表本身具有主观性，团队构建了包含对抗性测试、校准与多阶段审核的 QC 流程，每道题都经 Cognition 研究员人工复核。官方声称其误报率较 SWE-Bench Pro 低 81%。

任务分层与评分机制

FrontierCode 共包含 150 道任务，按难度划分为三个嵌套子集：

Diamond：50 道最难的题目
Main：100 道最难的题目（含 Diamond）
Extended：完整的 150 道题

每个模型在每个可用推理强度下运行 5 次，取平均后报告该模型在最佳推理水平下的成绩。评分采用两项指标：「通过率」衡量方案是否满足所有阻塞性标准（即维护者在代码审查中会一票否决的硬性问题），「得分」则是评分项的加权汇总，未通过阻塞标准的方案得分为 0。

模型实测结果

在最难的 Diamond 子集上，当前主流模型普遍表现不佳：

Claude Opus 4.8：得分 13.4%（最高）
GPT-5.5：得分 6.3%
Gemini 3.1 Pro：得分 4.7%

值得注意的是，GPT-5.5 使用的 token 数最多比 Opus 4.8 少 4 倍，在成本与智能的权衡上更优。在 Main 和 Extended 子集上，Opus 4.8 仍保持明显领先，分别为 34.3% 和 51.8%。

开源模型与前沿闭源模型之间存在显著差距。表现最好的开源模型 Kimi K2.6 在 Diamond 上仅获 3.8%，Main 上 16%，Extended 上 37%。

与现有基准的方法论差异

文章指出，第一代编码基准（如 SWE-Bench Verified 和 Pro）存在三大局限：

仅测功能正确性，不测代码质量——高分模型产出的补丁经常无法被人类维护者真正接受。
误分类问题严重——测试覆盖不完整会导致错误方案被接受，而过于严格的测试又可能误判正确方案。
任务多样性不足——多由单一 PR 程序化抓取生成。

针对这些问题，FrontierCode 让维护者从多 PR 链和自由形式请求中手工挑选任务，将代表的编程语言数量较 SWE-Bench Pro 扩大了三倍。任务描述刻意保持简洁，长度仅为 SWE-Bench Pro 的三分之一，引导智能体像人类贡献者一样自行推断维护者意图，而非依赖过度明确的提示。

Diamond 子集尚未饱和，意味着随着模型能力提升，该基准仍保留足够的区分度，为后续 AI 编码模型的迭代提供了清晰的标尺。