Fable 5 回归翻车：跑分腰斩、暗中降级至 Opus 4.8

Fable 5 在回归不到 24 小时内便遭遇开发者社区集体吐槽。多位用户在 X 平台集中曝光了这款新模型在跑分、稳定性、计费透明度等多个维度上的问题，原本值得庆祝的回归迅速演变成一场大型吐槽会。

模型「内心独白」泄露：连滚带爬地自我吐槽

开发者 Om Patel 在一次编程任务中意外截取了 Fable 5 未打磨的思考过程。截图显示，模型在处理图连通性等复杂算法时，输出了大量由变量名与感叹词拼接的「私有简写」：例如「DATA DATA DATA. GO.」出现在处理数据时，「GRRR」出现在约束条件无法满足时，「GAAAH」出现在接近放弃的瞬间，「PHEW」出现在绕过死胡同时。

Om Patel 认为，这套碎片化的「语言」是模型为节省 token 而自创的内部表达方式，与用户日常看到的流畅输出形成强烈反差。换句话说，模型后台的真实状态比对外呈现的「抛光成品」要狼狈得多。

跑分全线下跌：debugging 暴跌七成

评测机构 BridgeMind 使用 BridgeBench 跑分体系，对 Fable 5 回归前后的版本进行了同一套题目的对比测试，结果三项核心指标全部下滑：

Debugging 从 86.2 跌至 25.9，跌幅超过 70%，排名从第 9 跌至第 41；
Refactoring 从 73.6 跌至 38.4，几近腰斩；
Hallucination 从 75.9 跌至 61.7，三项中跌幅最小。

进一步拆解 debugging 项：12 个任务中仅 3 个完整跑完，其余 9 个在中途被安全机制判定不安全并降级至 Opus 4.8，被转走的任务在评分体系里全部记为零分。这意味跑分暴跌并非模型能力下滑，而是大量任务根本没跑到终点就被拦了下来。

计费与体验错位：花 Fable 5 的钱，跑 Opus 4.8 的活

BridgeMind 公布的一张账单截图显示：一次编程 session 总费用 321.53 美元，其中 Fable 5 部分仅 78.38 美元，Opus 4.8 部分达 242.24 美元。按工作量占比，用户付费选择的 Fable 5 实际承担的工作量不足 25%，剩余 75% 由系统自动转给 Opus 4.8 处理，且这一过程对用户完全无感知。

开发者 dax 翻看自己的调用日志时还发现，被降级请求的内部标签写着「TOO_DUMB_TO_NEED_FABLE」，字面意思是该请求过于简单、不需要 Fable 5 出手，因此系统顺手转给了 Opus 4.8。虽然 Opus 4.8 单价更低，BridgeMind 没有为这次「降级」多付一分钱，但用户不满的并非价格，而是货不对板。

安全机制过紧：连「raspberry 有几个 r」都被拦

多位用户报告 Fable 5 的拦截策略过于激进：

生物医药工程师 Derya Unutmaz 输入「Explain human」后，界面弹出卡片提示已切换至 Opus 4.8，称安全机制判定消息含需拦截的内容；
半导体分析师 Dylan Patel 询问「raspberry 这个单词里有几个字母 r」同样被拦截，提示「Chat paused」。

然而另一位用户 Zander 用完全相同的问题却得到了正常回答，模型准确数出三个 r 并标注了每个 r 的位置。同样的输入、不同结果，说明 Fable 5 的拦截标准缺乏一致性，连开发方自己都难以解释边界在哪里。Derya Unutmaz 的吐槽一针见血：一家名字「关乎人类」的公司，模型连「解释人类」都要绕道走，这本身就是一种讽刺。

社区反应与核心争议

BridgeMind 在推文中直言 Fable 5「不是被削弱了，是被宰了」，问题根源在于厂商设下的硬性护栏。开发者 Lex 转发账单时使用粗口，称这种行为「就是诈骗」。AI 从業者 Hesamation 将回归前后的跑分变化整理成柱状图在社区广泛转发，进一步放大了这场讨论的声量。

核心争议已经不在 Fable 5 本身能力是否足够强，而在于用户付费选择的模型是否在诚实地为自己工作。当 75% 的工作量被悄悄转嫁，跑分被中途清零，简单的字母计数问题也要「抽奖」决定能否回答时，模型的实际表现与用户的付费期待之间，已经出现了难以弥合的落差。