Fable 5 回归遭集体吐槽:跑分骤降、暗中降级、账单猫腻
Anthropic 旗下模型回归后被指跑分大跌、请求被悄悄转给 Opus 处理、安全护栏过度拦截,用户质疑货不对板。
Anthropic 的 Fable 5 模型在短暂下架后重新开放访问,官方账号与核心开发者纷纷发推庆祝回归。然而不到 24 小时,社交平台上的画风急转直下——用户集中爆出跑分缩水、安全机制过度拦截、账单与实际工作量不符等问题,一场近乎自发的吐槽大会迅速成型。
模型「内心戏」泄露:连滚带爬,还偷偷骂用户
开发者 Om Patel 给 Fable 5 出了一道图连通性结合区间覆盖的算法题,意外截到一段未打磨的内部思考过程。截图中两屏密密麻麻挤满了 active、committed、window 这类变量名与推理片段的混杂文本,中间夹杂着「DATA DATA DATA. GO.」「GRRR」「GAAAH」「PHEW」等大写短句。Om Patel 认为,这其实是模型自创的一套私有简写语言,只为省 token、提速度;用户日常见到的流畅回答,只是抛光后的成品。
更出格的是开发者 dax 翻调用日志时发现,部分被降级的请求背后挂着一条内部标签——「TOO_DUMB_TO_NEED_FABLE」,字面意思是「请求太简单,用不上 Fable 5」。系统会在用户毫不知情的情况下,把这类请求悄悄转交给 Opus 4.8 处理。
安全护栏过紧:连「raspberry 有几个 r」都拒答
生物医药工程师 Derya Unutmaz 让 Fable 5「Explain human」,界面直接弹出降级卡片,标题写着「Switched to Opus 4.8」,理由是安全机制判定消息中存在需拦截的内容。半导体分析师 Dylan Patel 问「raspberry 这个单词里有几个字母 r」,同样被拦截,弹出的卡片显示「Chat paused」,说明安全机制拦截了大多数网络安全或生物学相关话题。但评论区另一位用户 Zander 用同样的问题却顺利拿到了答案——三个 r,开头一个、中间两个。同一问题,有人被拦有人放行,判定标准连官方似乎也说不清楚。
账单猫腻:花 Fable 5 的钱,拿到的是 Opus 的活
编程测评机构 BridgeMind 晒出的一张账单把吐槽推向高潮:一次编程 session 总费用 321.53 美元,API 计算耗时超 5 小时、挂钟时间 2 小时 38 分,改动代码约 1.4 万行。按模型拆分,Fable 5 部分仅 78.38 美元,Opus 4.8 部分却高达 242.24 美元——四分之三的工作量被悄悄转给了用户并未主动选择的 Opus 4.8。Opus 4.8 单价更低,用户并未多付钱;但 BridgeMind 选的是 Fable 5,期待的也是 Fable 5 的表现,最终交付物却大半出自 Opus 之手。用户 Lex 直言这就是「纯纯诈骗」。
跑分数据:三项核心指标全线下跌
BridgeMind 用自家 BridgeBench 体系对回归前后的 Fable 5 做了对比测试,三项核心指标全部下滑:
- Debugging:从 86.2 跌至 25.9,跌幅超六成,排名从第 9 跌至第 41;
- Refactoring:从 73.6 跌至 38.4,几近腰斩,排名跌入倒数区;
- Hallucination:从 75.9 跌至 61.7,是三项中跌幅最小的一项。
对 Debugging 的拆解显示,12 个任务里只有 3 个在不触发降级的情况下完整跑完,其余 9 个在中途被安全机制拦截、转交 Opus,并在打分体系里全部记为零分。也就是说,跑分暴跌的根因并非模型本身变笨,而是大量任务压根没跑到终点。AI 从业者 Hesamation 把这组对比做成柱状图广泛转发,留言称 Fable 5 不是被削弱,而是被「宰」了,问题出在 Anthropic 设下的硬性护栏。
综合账单里 75% 的转移、raspberry 问题的随机拦截、内心独白里的连滚带爬,本质指向同一件事——回归版 Fable 5 的安全护栏收得过紧。模型能力与产品体验被搅成一锅粥之后,用户真正在意的,已经不只是 Fable 5 这一版到底强不强,而是自己选择的模型,有没有老老实实地在给自己干活。
