Anthropic 发布 Claude Sonnet 5,智能体能力逼近旗舰
Anthropic 发布 Claude Sonnet 5,五项基准全面提升并在一项上反超 Opus 4.8;定价较旗舰低…
Anthropic 于美国当地时间 6 月 30 日发布 Claude Sonnet 5,官方将其定位为「迄今为止智能体能力最强的 Sonnet 模型」。新版在五项主要基准测试中较前代 Sonnet 4.6 全面提升,并在知识工作评估 GDPval-AA v2 上以 1618 分直接超过旗舰 Opus 4.8 的 1615 分,是此次发布中唯一反超旗舰的项目。Sonnet 5 仍被归为中端产品,但 Anthropic 在官方博客中表示,其性能已跃升到与 Opus 4.8「大幅重叠」的层级。
基准表现:五项评估全面提升
Anthropic 公布的五项主要基准中,Sonnet 5 在智能体编码 SWE-bench Pro 上得分 63.2%,较 Sonnet 4.6 的 58.1% 提高 5.1 个百分点,与 Opus 4.8(69.2%)的差距由前代的 11.1 个百分点缩小到 6 个。终端编码 Terminal-Bench 2.1 提升幅度最大,从 67.0% 跃升至 80.4%,与 Opus 4.8 的 82.7% 仅差 2.3 个百分点。
多学科推理 Humanity's Last Exam 方面,Anthropic 同步更新了评分模型,并将 Sonnet 4.6 得分修正为 34.6%(无工具)与 46.8%(有工具)。Sonnet 5 在无工具条件下得分 43.2%,有工具时 57.4%,与 Opus 4.8 的 57.9% 几乎持平。计算机使用评估 OSWorld-Verified 经评估方式调整后,Sonnet 4.6 得分更新为 78.5%,Sonnet 5 得分 81.2%,提升 2.7 个百分点。
价格策略:标准定价较 Opus 低约六成
Sonnet 5 设有一段促销窗口:8 月 31 日前输入每百万 token 2 美元、输出 10 美元,之后回调为标准定价 3 美元 / 15 美元。作为对比,Opus 4.8 的标准定价为输入 5 美元、输出 25 美元。按标准价计算,Sonnet 5 每百万 token 的综合成本约为 Opus 4.8 的 40%,即低约六成。
智能体能力与安全评估
Anthropic 介绍,Sonnet 5 能自主制定计划、调用浏览器与终端等外部工具,在无人为干预的情况下完成多步骤任务。安全测试显示其在拒绝恶意请求、抗提示注入攻击、降低幻觉与谄媚行为发生率上均优于 Sonnet 4.6,但在自动化行为审计中得分仍低于 Opus 4.8 与 Mythos Preview,处于梯度体系的中间位置。
网络安全方面,Anthropic 与 Mozilla 联合测试了模型在 Firefox 147 中已知漏洞上的利用能力。两个 Sonnet 模型均未成功生成可利用程序,成功率为 0.0%;Sonnet 5 的部分成功率为 13.2%,Sonnet 4.6 为 8.8%,而 Opus 4.8 为 68.8%,Mythos 5 高达 88.4%。Anthropic 表示并未针对网络安全任务对 Sonnet 5 进行专项训练,并默认启用了与 Opus 4.7 / 4.8 同等级的网络安全防护。
技术细节:tokenizer 更新带来成本变量
Sonnet 5 采用与 Claude Opus 4.7 类似的更新后 tokenizer,同样的输入内容可能映射为原来 1.0 到 1.35 倍的 token 数量。Anthropic 提示,促销定价的设计旨在让用户迁移到 Sonnet 5 时大致保持成本中性,但高容量工作负载的企业客户仍需对自身用例做基准测试。速率限制方面,Anthropic 已为 Chat、Cowork、Claude Code 与 Claude Platform 提高限额。
商业背景:Fable 5 解禁与 IPO 进程
此次发布恰逢此前因安全问题被下架的 Fable 5 系列迎来转机。美国商务部长卢特尼克在 X 平台发帖称已与 Anthropic 密切合作完成分析与审批,Anthropic 随后回应称 Claude Fable 5 与 Mythos 5 将于当地时间 7 月 1 日恢复访问。
商业层面,Anthropic 已于 6 月初向 SEC 秘密提交 IPO 招股说明书。据《卫报》报道,公司今年 2 月以 3800 亿美元估值融资 300 亿美元,年化营收 140 亿美元;5 月下旬完成 650 亿美元 H 轮融资,由 Altimeter Capital 与红杉等共同领投,投后估值升至 9650 亿美元,年化营收超 470 亿美元。竞争方面,OpenAI 已于 3 月以 8520 亿美元估值完成 1220 亿美元融资并筹备 IPO,SpaceX 与 xAI 合并后估值达到 1.77 万亿美元,Google、Meta 也在推进企业级 AI 产品。各方正在争夺同一批企业客户。
