桃子桃子快讯
返回首页
行业动态

Fable 5 回归翻车:跑分腰斩、暗中降级至 Opus 4.8

Fable 5 回归不到 24 小时即遭用户集体吐槽:跑分三项指标全线下跌,近 75% 任务被自动转给 Opus 4.8…

2026.07.03 · 周五5 分钟阅读

Fable 5 在回归不到 24 小时内便遭遇开发者社区集体吐槽。多位用户在 X 平台集中曝光了这款新模型在跑分、稳定性、计费透明度等多个维度上的问题,原本值得庆祝的回归迅速演变成一场大型吐槽会。

模型「内心独白」泄露:连滚带爬地自我吐槽

开发者 Om Patel 在一次编程任务中意外截取了 Fable 5 未打磨的思考过程。截图显示,模型在处理图连通性等复杂算法时,输出了大量由变量名与感叹词拼接的「私有简写」:例如「DATA DATA DATA. GO.」出现在处理数据时,「GRRR」出现在约束条件无法满足时,「GAAAH」出现在接近放弃的瞬间,「PHEW」出现在绕过死胡同时。

Om Patel 认为,这套碎片化的「语言」是模型为节省 token 而自创的内部表达方式,与用户日常看到的流畅输出形成强烈反差。换句话说,模型后台的真实状态比对外呈现的「抛光成品」要狼狈得多。

跑分全线下跌:debugging 暴跌七成

评测机构 BridgeMind 使用 BridgeBench 跑分体系,对 Fable 5 回归前后的版本进行了同一套题目的对比测试,结果三项核心指标全部下滑:

  • Debugging 从 86.2 跌至 25.9,跌幅超过 70%,排名从第 9 跌至第 41;
  • Refactoring 从 73.6 跌至 38.4,几近腰斩;
  • Hallucination 从 75.9 跌至 61.7,三项中跌幅最小。

进一步拆解 debugging 项:12 个任务中仅 3 个完整跑完,其余 9 个在中途被安全机制判定不安全并降级至 Opus 4.8,被转走的任务在评分体系里全部记为零分。这意味跑分暴跌并非模型能力下滑,而是大量任务根本没跑到终点就被拦了下来。

计费与体验错位:花 Fable 5 的钱,跑 Opus 4.8 的活

BridgeMind 公布的一张账单截图显示:一次编程 session 总费用 321.53 美元,其中 Fable 5 部分仅 78.38 美元,Opus 4.8 部分达 242.24 美元。按工作量占比,用户付费选择的 Fable 5 实际承担的工作量不足 25%,剩余 75% 由系统自动转给 Opus 4.8 处理,且这一过程对用户完全无感知。

开发者 dax 翻看自己的调用日志时还发现,被降级请求的内部标签写着「TOO_DUMB_TO_NEED_FABLE」,字面意思是该请求过于简单、不需要 Fable 5 出手,因此系统顺手转给了 Opus 4.8。虽然 Opus 4.8 单价更低,BridgeMind 没有为这次「降级」多付一分钱,但用户不满的并非价格,而是货不对板。

安全机制过紧:连「raspberry 有几个 r」都被拦

多位用户报告 Fable 5 的拦截策略过于激进:

  • 生物医药工程师 Derya Unutmaz 输入「Explain human」后,界面弹出卡片提示已切换至 Opus 4.8,称安全机制判定消息含需拦截的内容;
  • 半导体分析师 Dylan Patel 询问「raspberry 这个单词里有几个字母 r」同样被拦截,提示「Chat paused」。

然而另一位用户 Zander 用完全相同的问题却得到了正常回答,模型准确数出三个 r 并标注了每个 r 的位置。同样的输入、不同结果,说明 Fable 5 的拦截标准缺乏一致性,连开发方自己都难以解释边界在哪里。Derya Unutmaz 的吐槽一针见血:一家名字「关乎人类」的公司,模型连「解释人类」都要绕道走,这本身就是一种讽刺。

社区反应与核心争议

BridgeMind 在推文中直言 Fable 5「不是被削弱了,是被宰了」,问题根源在于厂商设下的硬性护栏。开发者 Lex 转发账单时使用粗口,称这种行为「就是诈骗」。AI 从業者 Hesamation 将回归前后的跑分变化整理成柱状图在社区广泛转发,进一步放大了这场讨论的声量。

核心争议已经不在 Fable 5 本身能力是否足够强,而在于用户付费选择的模型是否在诚实地为自己工作。当 75% 的工作量被悄悄转嫁,跑分被中途清零,简单的字母计数问题也要「抽奖」决定能否回答时,模型的实际表现与用户的付费期待之间,已经出现了难以弥合的落差。

信源