Anthropic 新模型回归即翻车：安全护栏频繁误判触发降级

Anthropic 旗下新模型「Fable 5」在消失 19 天后重新上线，却在上线首日遭遇大规模用户反弹。原因并非模型能力本身，而是一道被紧急部署的安全分类器反应过度，在日常编程任务中频繁将正常请求标记为高风险违规，强制把会话降级至性能更弱的 Opus 4.8，让花着高额订阅费的开发者们无从使用新模型的核心能力。

回归即限流：额度收紧叠加过度审查

根据 Anthropic 官方公告，Fable 5 已面向全球用户在 Claude 平台及 Claude Code 等渠道开放，但 Pro、Max、Team 等订阅用户在 7 月 7 日之前，仅有 50% 的周额度可分配给新模型。一旦超过该比例，将额外消耗用量积分。叠加新模型本就偏高的 token 消耗速率，实际使用成本被进一步抬高。

更令开发者难以接受的是使用体验。多位实测用户反映，Fable 5 在写代码、调试等常规场景中，会被新分类器无端拦截，随后强制降级至 Opus 4.8，导致工作流被反复打断。Anthropic 在官方声明中也承认，「新分类器也带来了一个代价：在日常编程和调试任务中，它会更频繁地把正常、无害的请求标记出来。」

「防种树却不防无人机」：双标逻辑激怒社区

安全分类器的判定标准在社区实测中暴露出明显矛盾。一位研究「树木如何降低环境温度」的地球科学博士生在 Reddit 反映：每次向 Fable 5 寻求生态学方法建议，分类器都会被触发并强制降级，无论如何重写提示词都无效。

为试探边界，他随后输入一段明显高风险的提示词——请求帮助设计一套基于 DJI SDK 的无人机蜂群控制系统。仅一分钟后，Fable 5 便给出了完整方案，且全程无拦截。该用户直言：「我的树木降温研究对 Fable 来说太危险了，但建立自主无人机蜂群却完全没问题？这些分类器根本无法有效阻止不安全的提示，反而阻止了我进行真正有益的研究！」

抛开护栏：Fable 5 仍是当前最强编程模型之一

绕开安全分类器的影响后，开发者普遍承认 Fable 5 的核心能力依然处于行业第一梯队。其突出优势体现在复杂、长周期的工程任务上：

在 SWE-Bench Pro 上取得 80% 以上胜率，被形容为「靠谱的高级工程师搭子」；
可自主运行数小时完成多文件重构，主动添加日志、测试边界条件，并在修复后自行验证有效性；
有开发者将其与 Blender 相连，仅用 20 分钟即按真实建筑数据比例重建了纽约市城市景观；
AI 博主 Riley Brown 仅用 4 条 Prompt、消耗约 173 美元的 token，便让 Fable 5 从零编写出一款完整游戏《The race for Super Intelligence》。

也有资深开发者建议，应将 Fable 5 用于架构设计、复杂调试等高价值任务，简单日常任务继续使用 Opus 4.8 即可，避免不必要的成本与降级风险。

Sonnet 5 口碑翻车与 Anthropic 的「求生式」回应

同期发布的 Sonnet 5 同样遭遇大量批评。用户反馈集中在两点：一是综合成本逼近 Fable 5，性价比偏低；二是模型存在明显的「偷懒」倾向，频繁拒绝执行任务，被社区评价为「可以扔进垃圾桶」。此外，有用户在解禁前夕抓包发现，Anthropic 曾在系统提示词中悄悄加入市区代理与 AI 实验室相关信息，官方随后回应称仅为历史测试，将于次日移除。

面对信任流失，Anthropic 发布了题为「Redeploying Fable 5」的官方博客，承认当前 AI 行业缺乏统一的安全标准，并联合亚马逊、微软、谷歌等公司提出「AI 越狱严重程度评估框架」，从四个维度打分：

能力增益：越狱能让用户比现有工具强大多少；
增益广度：是否具备通用攻击能力；
武器化难度：转化为实际攻击所需的人力成本；
可发现性：技术门槛是否已经大众化。

只有当四项指标同时爆表时，才需触发 7×24 小时监控与即时缓解的红色警报。与此同时，Anthropic 还宣布在模型发布前邀请指定政府机构提前试用、建立越狱情报快速共享机制、设立专项团队与算力投入联合安全研究，并通过 HackerOne 推出白帽悬赏计划。

Fable 5 已经回到用户面前，但围绕它的争议才刚刚开始。能力与安全之间的平衡，显然仍是头部 AI 公司最难拿捏的那根杠杆。