Anthropic 新模型回归即翻车:安全护栏频繁误判触发降级
Anthropic 新模型「Fable 5」时隔 19 天回归,但过度敏感的安全分类器频繁将无害代码误判为高风险,强制降…
Anthropic 旗下新模型「Fable 5」在消失 19 天后重新上线,却在上线首日遭遇大规模用户反弹。原因并非模型能力本身,而是一道被紧急部署的安全分类器反应过度,在日常编程任务中频繁将正常请求标记为高风险违规,强制把会话降级至性能更弱的 Opus 4.8,让花着高额订阅费的开发者们无从使用新模型的核心能力。
回归即限流:额度收紧叠加过度审查
根据 Anthropic 官方公告,Fable 5 已面向全球用户在 Claude 平台及 Claude Code 等渠道开放,但 Pro、Max、Team 等订阅用户在 7 月 7 日之前,仅有 50% 的周额度可分配给新模型。一旦超过该比例,将额外消耗用量积分。叠加新模型本就偏高的 token 消耗速率,实际使用成本被进一步抬高。
更令开发者难以接受的是使用体验。多位实测用户反映,Fable 5 在写代码、调试等常规场景中,会被新分类器无端拦截,随后强制降级至 Opus 4.8,导致工作流被反复打断。Anthropic 在官方声明中也承认,「新分类器也带来了一个代价:在日常编程和调试任务中,它会更频繁地把正常、无害的请求标记出来。」
「防种树却不防无人机」:双标逻辑激怒社区
安全分类器的判定标准在社区实测中暴露出明显矛盾。一位研究「树木如何降低环境温度」的地球科学博士生在 Reddit 反映:每次向 Fable 5 寻求生态学方法建议,分类器都会被触发并强制降级,无论如何重写提示词都无效。
为试探边界,他随后输入一段明显高风险的提示词——请求帮助设计一套基于 DJI SDK 的无人机蜂群控制系统。仅一分钟后,Fable 5 便给出了完整方案,且全程无拦截。该用户直言:「我的树木降温研究对 Fable 来说太危险了,但建立自主无人机蜂群却完全没问题?这些分类器根本无法有效阻止不安全的提示,反而阻止了我进行真正有益的研究!」
抛开护栏:Fable 5 仍是当前最强编程模型之一
绕开安全分类器的影响后,开发者普遍承认 Fable 5 的核心能力依然处于行业第一梯队。其突出优势体现在复杂、长周期的工程任务上:
- 在 SWE-Bench Pro 上取得 80% 以上胜率,被形容为「靠谱的高级工程师搭子」;
- 可自主运行数小时完成多文件重构,主动添加日志、测试边界条件,并在修复后自行验证有效性;
- 有开发者将其与 Blender 相连,仅用 20 分钟即按真实建筑数据比例重建了纽约市城市景观;
- AI 博主 Riley Brown 仅用 4 条 Prompt、消耗约 173 美元的 token,便让 Fable 5 从零编写出一款完整游戏《The race for Super Intelligence》。
也有资深开发者建议,应将 Fable 5 用于架构设计、复杂调试等高价值任务,简单日常任务继续使用 Opus 4.8 即可,避免不必要的成本与降级风险。
Sonnet 5 口碑翻车与 Anthropic 的「求生式」回应
同期发布的 Sonnet 5 同样遭遇大量批评。用户反馈集中在两点:一是综合成本逼近 Fable 5,性价比偏低;二是模型存在明显的「偷懒」倾向,频繁拒绝执行任务,被社区评价为「可以扔进垃圾桶」。此外,有用户在解禁前夕抓包发现,Anthropic 曾在系统提示词中悄悄加入市区代理与 AI 实验室相关信息,官方随后回应称仅为历史测试,将于次日移除。
面对信任流失,Anthropic 发布了题为「Redeploying Fable 5」的官方博客,承认当前 AI 行业缺乏统一的安全标准,并联合亚马逊、微软、谷歌等公司提出「AI 越狱严重程度评估框架」,从四个维度打分:
- 能力增益:越狱能让用户比现有工具强大多少;
- 增益广度:是否具备通用攻击能力;
- 武器化难度:转化为实际攻击所需的人力成本;
- 可发现性:技术门槛是否已经大众化。
只有当四项指标同时爆表时,才需触发 7×24 小时监控与即时缓解的红色警报。与此同时,Anthropic 还宣布在模型发布前邀请指定政府机构提前试用、建立越狱情报快速共享机制、设立专项团队与算力投入联合安全研究,并通过 HackerOne 推出白帽悬赏计划。
Fable 5 已经回到用户面前,但围绕它的争议才刚刚开始。能力与安全之间的平衡,显然仍是头部 AI 公司最难拿捏的那根杠杆。
