Anthropic 推出 Claude Sonnet 5，性能接近 Opus 4.8

据 TestingCatalog 在 X 平台上的消息，Anthropic 已正式公布 Claude Sonnet 5。该模型主打「接近 Opus 4.8 的性能、更低的定价」，定位为新一代主力中端型号，目前已在 OpenRouter 等渠道进入上线准备阶段。TestingCatalog 并非 Anthropic 官方渠道，相关细节仍以官方发布为准。

关键基准表现

TestingCatalog 援引的数据显示，Claude Sonnet 5 在 SWE Bench Pro 上得分 63.2%，相较上一代 Sonnet 4.6 的 58.1% 有明显提升。SWE Bench Pro 主要衡量模型在真实软件工程任务中的端到端修复能力，是当前业内关注度较高的工程类基准之一。

Sonnet 5：63.2%
Sonnet 4.6：58.1%
提升幅度：约 5.1 个百分点

与 Opus 4.8 的定位关系

Sonnet 系列长期承担 Anthropic「性能—成本」平衡的角色。TestingCatalog 称 Sonnet 5 的整体表现已「接近 Opus 4.8」，但售价更低。这意味着对于不需要 Opus 级别推理深度的开发者和企业用户，Sonnet 5 有望成为更具性价比的选择，也可能在 API 定价上对竞品中端型号形成直接竞争。

上线渠道与可用性

根据 TestingCatalog 发现的 OpenRouter 后台信息，Sonnet 5 已在 OpenRouter 平台以 20260630 的 slug 准备上架，该标识与「当日发布」的时间戳一致，暗示 Anthropic 正与第三方分发渠道同步推进上线。OpenRouter 作为聚合多家模型 API 的平台，是观察新模型分发节奏的重要窗口。

仍待确认的信息

Anthropic 官方博客与定价页面的正式公布内容
上下文窗口、token 定价、速率限制等具体参数
在 GPQA、HumanEval、MMLU 等其他基准上的完整成绩
与 Opus 4.8 的逐项能力对比细节

TestingCatalog 已在 X 上向社区征集使用反馈，对于已获得 API 访问的开发者而言，Sonnet 5 的实际表现值得在编码、长上下文与工具调用等场景中进一步验证。