桃子桃子 AI 快讯
返回首页
工具

SWE-rebench 编码榜更新:GLM-5.2、Qwen3.6 等多款模型入榜

SWE-rebench 编码基准排行榜更新,Claude Opus 4.8 xhigh 以 56.5% 居首,新增 GL…

2026.07.01 · 周三3 分钟阅读

SWE-rebench 编码能力排行榜近日完成一次较大规模更新,新增了多款主流模型的评测结果,并对榜单 UI 进行了重新设计,方便用户横向对比。

榜单头部:Claude Opus 4.8 xhigh 暂居第一

本次更新中,Claude Opus 4.8 xhigh 以 56.5% 的成绩位列榜首,平均完成一次任务消耗 2.48M tokens。紧随其后的是 GLM-5.2(51.1%,2.62M tokens)和 Gemini 3.5 Flash(49.5%,1.85M tokens)。

排名前列的还包括:

  • MiniMax M3:45.6%(6.89M tokens)
  • DeepSeek-V4 Pro:42.7%(2.25M tokens)
  • MiMo V2.5 Pro:42.4%(2.59M tokens)
  • DeepSeek-V4 Flash:38.4%(3.00M tokens)

值得注意的是,MiniMax M3 的 token 消耗明显高于其他模型,达到 6.89M tokens,表明在同等任务下其生成或检索量更大;而 Gemini 3.5 Flash 以 1.85M tokens 取得了 49.5% 的成绩,效率相对突出。

本地可部署模型:Qwen3.6-27B 表现亮眼

对于关注本地部署和自托管的用户,本次更新重点引入了多款可在消费级硬件上运行的模型:

  • Qwen3.6-27B:36.5%(1.88M tokens)
  • Qwen3.6-35B-A3B:33.8%(2.23M tokens)
  • Gemma 4 31B:16.5%(2.24M tokens)

Qwen3.6-27B 在 27B 参数量级上表现突出,得分 36.5%;同系列的 35B-A3B(采用 MoE 架构,激活参数约 3B)也以 33.8% 入榜,为本地 coding agent 用户提供了新的选择。Gemma 4 31B 得分 16.5%,相对偏低,可作为同尺寸模型的参考基线。

UI 改版与社区征集

除新增模型外,团队对 SWE-rebench 排行榜的 UI 进行了重新设计,使成绩更易于阅读、对比和理解。榜单同时在 r/LocalLLaMA 社区征集建议,希望了解开发者实际在 coding agent 或本地开发中使用的模型,以便在后续更新中纳入评测。

相关资源入口:

  • 排行榜:swe-rebench.com
  • Harbor 框架(支持自建 agent 评测):hub.harborframework.com/datasets/swe-rebench/swe-rebench-leaderboard/latest
信源