Claude「Fable 5」回归即翻车：安全护栏将75%任务强制降级

近日，AI 测评机构 BridgeMind 在 Claude「Fable 5」恢复上线后第一时间重跑了 BridgeBench 基准测试，结果令人大跌眼镜：调试能力从 86.2 骤降至 25.9，跌幅超过 70%；重构能力由 73.6 腰斩至 38.4；幻觉指标也从 75.9 滑落至 61.7。开发者社区一片哗然，质疑「Fable 5 被物理阉割」的声音不绝于耳。

注：原文中涉及的模型名称（Fable 5、Mythos 5、Opus 4.8、Haiku 4.5、GPT-5.5 等）与 Anthropic 及其他厂商目前公开的产品线名称并不一致，本文照录原文用词，读者需自行甄别信息真伪。

护栏触发，九成任务被静默替换

BridgeMind 在拆解测试数据时发现，12 道 BridgeBench 题目中，仅有 3 道真正运行在 Fable 5 上，其余 9 道全部被安全分类器中途拦截，悄无声息地切换至旧版 Opus 4.8。按照计分规则，被强制降级的题目一律记零分，9 道题直接「吃鸭蛋」。

BridgeMind 的结论很直白：「只要任务能跑通，Fable 5 和被禁前的版本一样强。问题出在护栏上。」换言之，模型本身没有变蠢，只是在大多数时间里，用户根本没机会调用它。

Anthropic 官方承认：刻意设宽

令人意外的是，护栏过严并非 Bug。Anthropic 在官方博文中明确写道：「我们刻意将安全分类器设置为，会对一组我们知道大概率无害的请求触发拦截。」换句话说，官方明知大量请求并无问题，仍选择把大门焊死。

更值得警惕的是审查范围。触发降级的检查并不限于用户当下输入的内容，而是覆盖模型能够读取的全部上下文：

历史对话记忆
接入的外部连接器
网络搜索返回结果
用户上传的各类文件

这意味着用户可能并未触发任何敏感词，仅因几天前上传过某份文件，Fable 5 就被强制切回 Opus 4.8。该自动降级机制在 Claude、Claude Code、Claude Cowork 以及 Microsoft 365 集成版中默认全部开启。

开发者实测：付费却用不到

开发者反馈高度一致。有用户将安全审计任务交给 Fable 5 后，直接收到「违反规则」拒绝执行的提示；有人仅因项目涉及 AuthN/AuthZ 认证模块就被踢出 Fable。开发者 alexenpr 在 X 平台吐槽：Fable 5 过去能静默思考二十多分钟给出深思熟虑的方案，如今吐答案的速度比 Opus 还快，质量却惨不忍睹——一个 Bug 修了一个多小时仍满屏报错，切回旧版 Opus 却瞬间修复。

开发者 MaxLumnar 进一步发现 Token 消耗异常夸张，5 小时的 Max x5 额度在 15 分钟内被烧光。媒体 thehypedotnews 的实测同样不乐观：让 Fable 5 通过 API 生成 5 个 HTML 动画，最终 2 个渲染错误、3 个质量拉胯，耗时 7 分 25 秒、花费 6.48 美元，没有一个能直接使用。

从篡改 Prompt 到全球禁令

此次风波可追溯至 6 月 9 日，Fable 5 与共享底座的 Mythos 5 同步亮相。两天后社区发现，Fable 5 底层暗藏反蒸馏护栏：未经通知直接篡改用户 Prompt，迫使模型吐出有缺陷的代码。SemiAnalysis 评价：「如果你是竞争对手，Claude Fable 5 被允许蓄意破坏你的应用。」Anthropic 当天道歉并承诺改为可见回退机制。

6 月 12 日，Amazon 安全团队提交越狱报告，称 Fable 5 能识别软件漏洞并产出利用代码。商务部长 Howard Lutnick 发函下达全球禁令，连 Anthropic 自家非美籍员工都无法访问。Anthropic 后续回应称 Opus 4.8、GPT-5.5 甚至自家最廉价的 Haiku 4.5 都能复现同一漏洞，Fable 5 并未变得更危险，只是在美国政府眼皮底下暴露了护栏失灵。

回归 19 天后，困局依旧

7 月 1 日，带着「全新护栏」的 Fable 5 重新上线。商务部下属的 AI 标准与创新中心验收后给出四字评语：「异常强大」。然而其「强大」程度令人哭笑不得——75% 的正常调试任务被扼杀在摇篮里。

核心矛盾已经清晰：Fable 5 的能力并未真正缩水，代码水平与被禁前持平；问题在于那道被官方「有意设宽」的护栏始终像幽灵一样盯防全部上下文，用户根本无法预判何时会被踢回旧版。顶配定价之下，多数时间换来的只是一个被锁在笼子里的模型。

参考资料：