桃子桃子 AI 快讯
返回首页
工具

Cognition 发布 FrontierCode 代码质量基准

Cognition 推出 FrontierCode 编码基准,首次以「可合并性」衡量 AI 代码质量,主流模型在最难子集…

2026.06.29 · 周一4 分钟阅读评分 70
评分细项加权总分 70
重要性
65
新颖性
78
影响面
62
可信度
72
实质性
82

AI 编程公司 Cognition(Devin 背后的团队)正式发布新型编码评测基准 FrontierCode。与 SWE-Bench 等第一代基准不同,FrontierCode 的核心创新在于不再仅仅评估「代码能否通过单元测试」,而是衡量「代码是否会被维护者真正合并进生产仓库」,将评测维度从功能正确性推进到整体代码质量。

三大核心设计差异

FrontierCode 在评测理念上做了三项关键调整:

  • 首次评测代码可合并性:评估端到端的代码质量,涵盖正确性、测试质量、范围控制、代码风格以及与仓库规范的契合度,组合使用单元测试、评分量表(rubric)和新型验证器进行评分。
  • 由开源维护者亲自构建:20 余位世界级开源开发者从自己维护的代码库中提炼出真实、多样且具挑战性的任务,每个任务平均耗时超过 40 小时,并自行定义「可合并」的标准。
  • 严格的人工质量控制:由于评分量表本身具有主观性,团队构建了包含对抗性测试、校准与多阶段审核的 QC 流程,每道题都经 Cognition 研究员人工复核。官方声称其误报率较 SWE-Bench Pro 低 81%。

任务分层与评分机制

FrontierCode 共包含 150 道任务,按难度划分为三个嵌套子集:

  • Diamond:50 道最难的题目
  • Main:100 道最难的题目(含 Diamond)
  • Extended:完整的 150 道题

每个模型在每个可用推理强度下运行 5 次,取平均后报告该模型在最佳推理水平下的成绩。评分采用两项指标:「通过率」衡量方案是否满足所有阻塞性标准(即维护者在代码审查中会一票否决的硬性问题),「得分」则是评分项的加权汇总,未通过阻塞标准的方案得分为 0。

模型实测结果

在最难的 Diamond 子集上,当前主流模型普遍表现不佳:

  • Claude Opus 4.8:得分 13.4%(最高)
  • GPT-5.5:得分 6.3%
  • Gemini 3.1 Pro:得分 4.7%

值得注意的是,GPT-5.5 使用的 token 数最多比 Opus 4.8 少 4 倍,在成本与智能的权衡上更优。在 Main 和 Extended 子集上,Opus 4.8 仍保持明显领先,分别为 34.3% 和 51.8%。

开源模型与前沿闭源模型之间存在显著差距。表现最好的开源模型 Kimi K2.6 在 Diamond 上仅获 3.8%,Main 上 16%,Extended 上 37%。

与现有基准的方法论差异

文章指出,第一代编码基准(如 SWE-Bench Verified 和 Pro)存在三大局限:

  1. 仅测功能正确性,不测代码质量——高分模型产出的补丁经常无法被人类维护者真正接受。
  2. 误分类问题严重——测试覆盖不完整会导致错误方案被接受,而过于严格的测试又可能误判正确方案。
  3. 任务多样性不足——多由单一 PR 程序化抓取生成。

针对这些问题,FrontierCode 让维护者从多 PR 链和自由形式请求中手工挑选任务,将代表的编程语言数量较 SWE-Bench Pro 扩大了三倍。任务描述刻意保持简洁,长度仅为 SWE-Bench Pro 的三分之一,引导智能体像人类贡献者一样自行推断维护者意图,而非依赖过度明确的提示。

Diamond 子集尚未饱和,意味着随着模型能力提升,该基准仍保留足够的区分度,为后续 AI 编码模型的迭代提供了清晰的标尺。

信源