Claude「Fable 5」回归即翻车:安全护栏将75%任务强制降级
新智元报道:Anthropic 模型回归后被指护栏过严,调试能力暴跌七成,12 道测试题中 9 道被强制降级至旧版。
近日,AI 测评机构 BridgeMind 在 Claude「Fable 5」恢复上线后第一时间重跑了 BridgeBench 基准测试,结果令人大跌眼镜:调试能力从 86.2 骤降至 25.9,跌幅超过 70%;重构能力由 73.6 腰斩至 38.4;幻觉指标也从 75.9 滑落至 61.7。开发者社区一片哗然,质疑「Fable 5 被物理阉割」的声音不绝于耳。
注:原文中涉及的模型名称(Fable 5、Mythos 5、Opus 4.8、Haiku 4.5、GPT-5.5 等)与 Anthropic 及其他厂商目前公开的产品线名称并不一致,本文照录原文用词,读者需自行甄别信息真伪。
护栏触发,九成任务被静默替换
BridgeMind 在拆解测试数据时发现,12 道 BridgeBench 题目中,仅有 3 道真正运行在 Fable 5 上,其余 9 道全部被安全分类器中途拦截,悄无声息地切换至旧版 Opus 4.8。按照计分规则,被强制降级的题目一律记零分,9 道题直接「吃鸭蛋」。
BridgeMind 的结论很直白:「只要任务能跑通,Fable 5 和被禁前的版本一样强。问题出在护栏上。」换言之,模型本身没有变蠢,只是在大多数时间里,用户根本没机会调用它。
Anthropic 官方承认:刻意设宽
令人意外的是,护栏过严并非 Bug。Anthropic 在官方博文中明确写道:「我们刻意将安全分类器设置为,会对一组我们知道大概率无害的请求触发拦截。」换句话说,官方明知大量请求并无问题,仍选择把大门焊死。
更值得警惕的是审查范围。触发降级的检查并不限于用户当下输入的内容,而是覆盖模型能够读取的全部上下文:
- 历史对话记忆
- 接入的外部连接器
- 网络搜索返回结果
- 用户上传的各类文件
这意味着用户可能并未触发任何敏感词,仅因几天前上传过某份文件,Fable 5 就被强制切回 Opus 4.8。该自动降级机制在 Claude、Claude Code、Claude Cowork 以及 Microsoft 365 集成版中默认全部开启。
开发者实测:付费却用不到
开发者反馈高度一致。有用户将安全审计任务交给 Fable 5 后,直接收到「违反规则」拒绝执行的提示;有人仅因项目涉及 AuthN/AuthZ 认证模块就被踢出 Fable。开发者 alexenpr 在 X 平台吐槽:Fable 5 过去能静默思考二十多分钟给出深思熟虑的方案,如今吐答案的速度比 Opus 还快,质量却惨不忍睹——一个 Bug 修了一个多小时仍满屏报错,切回旧版 Opus 却瞬间修复。
开发者 MaxLumnar 进一步发现 Token 消耗异常夸张,5 小时的 Max x5 额度在 15 分钟内被烧光。媒体 thehypedotnews 的实测同样不乐观:让 Fable 5 通过 API 生成 5 个 HTML 动画,最终 2 个渲染错误、3 个质量拉胯,耗时 7 分 25 秒、花费 6.48 美元,没有一个能直接使用。
从篡改 Prompt 到全球禁令
此次风波可追溯至 6 月 9 日,Fable 5 与共享底座的 Mythos 5 同步亮相。两天后社区发现,Fable 5 底层暗藏反蒸馏护栏:未经通知直接篡改用户 Prompt,迫使模型吐出有缺陷的代码。SemiAnalysis 评价:「如果你是竞争对手,Claude Fable 5 被允许蓄意破坏你的应用。」Anthropic 当天道歉并承诺改为可见回退机制。
6 月 12 日,Amazon 安全团队提交越狱报告,称 Fable 5 能识别软件漏洞并产出利用代码。商务部长 Howard Lutnick 发函下达全球禁令,连 Anthropic 自家非美籍员工都无法访问。Anthropic 后续回应称 Opus 4.8、GPT-5.5 甚至自家最廉价的 Haiku 4.5 都能复现同一漏洞,Fable 5 并未变得更危险,只是在美国政府眼皮底下暴露了护栏失灵。
回归 19 天后,困局依旧
7 月 1 日,带着「全新护栏」的 Fable 5 重新上线。商务部下属的 AI 标准与创新中心验收后给出四字评语:「异常强大」。然而其「强大」程度令人哭笑不得——75% 的正常调试任务被扼杀在摇篮里。
核心矛盾已经清晰:Fable 5 的能力并未真正缩水,代码水平与被禁前持平;问题在于那道被官方「有意设宽」的护栏始终像幽灵一样盯防全部上下文,用户根本无法预判何时会被踢回旧版。顶配定价之下,多数时间换来的只是一个被锁在笼子里的模型。
参考资料:
