桃子桃子 AI 快讯
返回首页
模型发布

Anthropic 推出 Claude Sonnet 5,性能接近 Opus 4.8

Claude Sonnet 5 正式公布,SWE Bench Pro 达 63.2%,较 Sonnet 4.6 提升明显…

2026.07.01 · 周三2 分钟阅读

据 TestingCatalog 在 X 平台上的消息,Anthropic 已正式公布 Claude Sonnet 5。该模型主打「接近 Opus 4.8 的性能、更低的定价」,定位为新一代主力中端型号,目前已在 OpenRouter 等渠道进入上线准备阶段。TestingCatalog 并非 Anthropic 官方渠道,相关细节仍以官方发布为准。

关键基准表现

TestingCatalog 援引的数据显示,Claude Sonnet 5 在 SWE Bench Pro 上得分 63.2%,相较上一代 Sonnet 4.6 的 58.1% 有明显提升。SWE Bench Pro 主要衡量模型在真实软件工程任务中的端到端修复能力,是当前业内关注度较高的工程类基准之一。

  • Sonnet 5:63.2%
  • Sonnet 4.6:58.1%
  • 提升幅度:约 5.1 个百分点

与 Opus 4.8 的定位关系

Sonnet 系列长期承担 Anthropic「性能—成本」平衡的角色。TestingCatalog 称 Sonnet 5 的整体表现已「接近 Opus 4.8」,但售价更低。这意味着对于不需要 Opus 级别推理深度的开发者和企业用户,Sonnet 5 有望成为更具性价比的选择,也可能在 API 定价上对竞品中端型号形成直接竞争。

上线渠道与可用性

根据 TestingCatalog 发现的 OpenRouter 后台信息,Sonnet 5 已在 OpenRouter 平台以 20260630 的 slug 准备上架,该标识与「当日发布」的时间戳一致,暗示 Anthropic 正与第三方分发渠道同步推进上线。OpenRouter 作为聚合多家模型 API 的平台,是观察新模型分发节奏的重要窗口。

仍待确认的信息

  • Anthropic 官方博客与定价页面的正式公布内容
  • 上下文窗口、token 定价、速率限制等具体参数
  • 在 GPQA、HumanEval、MMLU 等其他基准上的完整成绩
  • 与 Opus 4.8 的逐项能力对比细节

TestingCatalog 已在 X 上向社区征集使用反馈,对于已获得 API 访问的开发者而言,Sonnet 5 的实际表现值得在编码、长上下文与工具调用等场景中进一步验证。

信源