SWE-rebench 编码榜更新：GLM-5.2、Qwen3.6 等多款模型入榜

SWE-rebench 编码能力排行榜近日完成一次较大规模更新，新增了多款主流模型的评测结果，并对榜单 UI 进行了重新设计，方便用户横向对比。

榜单头部：Claude Opus 4.8 xhigh 暂居第一

本次更新中，Claude Opus 4.8 xhigh 以 56.5% 的成绩位列榜首，平均完成一次任务消耗 2.48M tokens。紧随其后的是 GLM-5.2（51.1%，2.62M tokens）和 Gemini 3.5 Flash（49.5%，1.85M tokens）。

排名前列的还包括：

值得注意的是，MiniMax M3 的 token 消耗明显高于其他模型，达到 6.89M tokens，表明在同等任务下其生成或检索量更大；而 Gemini 3.5 Flash 以 1.85M tokens 取得了 49.5% 的成绩，效率相对突出。

对于关注本地部署和自托管的用户，本次更新重点引入了多款可在消费级硬件上运行的模型：

Qwen3.6-27B 在 27B 参数量级上表现突出，得分 36.5%；同系列的 35B-A3B（采用 MoE 架构，激活参数约 3B）也以 33.8% 入榜，为本地 coding agent 用户提供了新的选择。Gemma 4 31B 得分 16.5%，相对偏低，可作为同尺寸模型的参考基线。

除新增模型外，团队对 SWE-rebench 排行榜的 UI 进行了重新设计，使成绩更易于阅读、对比和理解。榜单同时在 r/LocalLLaMA 社区征集建议，希望了解开发者实际在 coding agent 或本地开发中使用的模型，以便在后续更新中纳入评测。