Anthropic 发布 Claude Sonnet 5：更便宜、更自主的智能体模型

Anthropic 正式发布中端主力模型 Claude Sonnet 5，将其定位为「更便宜地运行智能体」的新选择，并从即日起成为免费版和 Pro 版的默认模型。Anthropic 在官方博客中表示，Sonnet 5 在规划任务、调用浏览器与终端等工具、以及长时自主执行方面，已达到几个月前仍需更大、更贵模型才能实现的水平。这一说法与 OpenAI、Google 近期对其各自最新模型「最智能体化」的描述形成呼应——业内正把智能体能力视作新的基线要求，竞争焦点从「谁能做好智能体」转向「谁能在更低成本、更高自主性下做好」。

定价与定位

Sonnet 5 在发布初期（截至 8 月 31 日）定价为每百万输入 token 2 美元、每百万输出 token 10 美元；此后将上调至输入 3 美元、输出 10 美元。Anthropic 表示，这一价格低于其高端模型 Opus 4.8，也低于 OpenAI 的 GPT-5.5 与 Google 的 Gemini 3.1 Pro，但仍高于 Google 定位轻量的 Gemini 3.5 Flash。Anthropic 将其描述为「在 Opus 4.8 与 Sonnet 5 之间，用户可按需调整投入程度，找到成本与性能的最佳平衡」。

性能与基准

相比今年 2 月发布的前代 Sonnet 4.6，Sonnet 5 在推理、工具调用、软件编码与知识工作等智能体指标上均有显著提升。Anthropic 引用的一组基准显示：

智能体编码基准：Sonnet 5 得 63.2%，Sonnet 4.6 为 58.1%，Opus 4.8 为 69.2%。
知识工作基准：Sonnet 5 略高于 Opus 4.8。

Anthropic 同时指出，Opus 4.8 仍是处理高难度判断与深度研究等任务的更优选择，Sonnet 5 则在更低价位上提供了「此前不可得的高质量」选项。

实际表现与生态反馈

根据 Anthropic 援引的测试者反馈，Sonnet 5 在面对旧模型容易中途放弃的复杂任务时表现更稳定，且能在未被显式要求时自行检查输出。Zapier 高级工程师 Daniel Shepard 表示，Sonnet 5 能端到端完成「更新 Salesforce 账户等级、向企业联系人发送发布通知」这类组合任务，而过去常在中间环节停滞，「对日常自动化来说是不二之选」。

安全与对齐

在安全层面，Sonnet 5 相比 Sonnet 4.6 显著降低了「不良行为」发生率，包括配合滥用、欺骗以及提示注入劫持等情形；其拒绝恶意请求、规避劫持的能力更强，幻觉与谄媚行为也更少。不过在危险网络安全任务的执行能力上，Sonnet 5 仍远低于 Opus 4.8。Lovable 联合创始人 Fabian Hedin 称，Sonnet 5「干净且一致地拒绝不安全请求」，在面向数百万开发者的场景中，「懂得何时说不的模型与懂得如何构建的模型同等重要」。