桃子桃子 AI 快讯
返回首页
模型发布

Claude Sonnet 5 发布:跑分逼近 Opus,实际账单却比 Opus 还贵

Anthropic 推出性价比模型 Sonnet 5,Agent 能力接近 Opus 4.8 但官方标价更低;然而新分词…

2026.07.01 · 周三5 分钟阅读

Anthropic 正式推出 Claude Sonnet 5,定位为迄今为止「最能干活」的 Sonnet 版本,强调 Agent 能力与性价比。官方跑分显示,Sonnet 5 在多项基准上已逼近甚至追平自家旗舰 Opus 4.8,但标价仅为其六成左右,被业内称作「Opus 平替」。然而上线不到一天,开发者社区便发现这款「平替」在实际账单上反而比 Opus 还要贵,争议迅速发酵。

能力升级:Agent 跑分逼近 Opus 4.8

Sonnet 5 的核心升级方向是自主完成多步骤任务。模型可自行拆解目标、调用浏览器与终端等工具,在长链路工作流中持续执行,并在结束后主动检查输出结果,减少人工介入。

关键基准表现如下:

  • SWE-bench Pro(Agentic Coding):Sonnet 5 拿下 63.2%,较上一代 Sonnet 4.6 的 58.1% 提升约 5 个百分点,与 Opus 4.8 的 69.2% 仅差 6 分。
  • OSWorld-Verified(Computer Use):Sonnet 5 达 81.2%,Opus 4.8 为 83.4%,差距缩小到 2.2 个百分点。
  • GDPval-AA v2(知识工作):Sonnet 5 得分 1618,反超 Opus 4.8 的 1615 分。

AI 编程平台 Factory 与自动化平台 Zapier 的早期用户反馈印证了这一能力跃迁:Factory 工程师 Zimu Li 表示,Sonnet 5 能在复杂技术环境中持续编码与排障;Zapier 工程师 Daniel Shepard 则展示了「先更新 Salesforce 账户等级、再发产品上线邮件」的两段式任务,Sonnet 5 一次跑完,中间无需人工接管。

配套的安全评估也同步改善,Sonnet 5 在幻觉率、谄媚倾向与提示词注入抗性上均优于 Sonnet 4.6。

标价「不变」,账单暗涨

从官方价目表看,Sonnet 5 的输入/输出单价维持在每百万 Token 3/15 美元,与 Sonnet 4.6 一字不差,相较 Opus 4.8 的 5/25 美元便宜约四成;叠加 8 月底前的限时优惠,最低可达 Opus 的四成。

但开发者 Simon Willison 通过 Token 计数工具实测发现,新模型换用了分词器,同样的文本被切成了更多 Token:

  • 英文文档:Token 数从 2356 涨至 3341,增幅约 42%。
  • 西班牙语文档:增幅约 33%。
  • 4279 行 Python 代码:Token 数从 44014 涨至 56118,增幅约 27%。
  • 简体中文文档:从 3334 涨至 3360,几乎持平。

这意味着「单价不变」在事实层面没有说谎,但实际单次请求的总费用显著上升,不同语言之间的差异超过 40 个百分点。

反转:实际成本高于 Opus 4.8

更尴尬的是,当把 Token 消耗折算成实际支出后,Sonnet 5 在部分场景下的总花费反而超过了 Opus 4.8。

有开发者在 Artificial Analysis Intelligent Index 任务上做了对比:

  • Opus 4.8 加权平均花费约 1.8 美元。
  • Sonnet 5 同任务花费约 2.29 美元,多出约 27%。
  • 同一任务下,Sonnet 5 消耗的 Token 数约为 Opus 的两倍。
  • 跑完整个 Benchmark 后,Sonnet 5 的总开销甚至比 Fable 5 还高 6.8%。

换言之,标价表上 Sonnet 5 是「Opus 平替」,但账单上的 Sonnet 5 是「Opus 贵替」。这层差异能被发现,要归功于开发者手中的 Token 计数工具;普通用户大概率只会在月底模糊感叹「这个月怎么花得有点多」。

开发者如何应对

此次事件折射出大模型定价的两条路径。OpenAI 今年 4 月为 GPT-5.5 调价时选择直接翻倍,用户打开价格页即可看到变动;Anthropic 则在 Sonnet 5 上让标价一字未动,把涨幅藏进了分词器换代的技术细节里。

对计划迁移到 Sonnet 5 的工作流而言,更稳妥的做法是:先用 Token 计数工具针对自己的真实负载做一轮实测,估算实际成本,再决定是否切换。

此外,已有开发者指出,视线不必只盯着 Claude 一家。智谱 GLM-5.2 的性能与 Sonnet 5 相差无几,官方输入价格仅为其七成,输出价格更不到一半。换言之,与其在一把「换了刻度的尺子」上精打细算,不如重新审视同类替代品的价格曲线。

信源