桃子桃子快讯
返回首页
行业动态

Fable 5 截图暴露 AI 内心戏:推理为何走向不可读

Fable 5 推理截图意外泄露引发热议,揭示大模型在高压任务下可能产生难以阅读的内部表达,与 AI 意识及可解释性争论…

2026.07.04 · 周六5 分钟阅读

Anthropic 旗下模型 Fable 5 近日因一段「内心戏」截图在社交媒体上引发热议。用户在测试中发现,该模型在处理复杂编程题时,会在界面上输出一段混合了英文、图论术语、数学符号和自我提醒的密集推理文本,其中夹杂着「GRRR」「GAAAH」「PHEW」以及「DATA DATA DATA. GO.」等极具情绪色彩的短语。

更具戏剧性的是,有用户在查询日志时发现,Fable 5 对部分简单问题直接回退到了 Opus 4.8,并标注「TOO_DUMB_TO_NEED_FABLE」。Anthropic 工程师 Thariq Shihipar 也在帖子下回应称「没想到你会去看日志」。

不只是乱码:高压推理下的速记

据截图内容分析,Fable 5 当时正在处理一道容量约束问题,反复讨论窗口区间、腿段占用和路径约束等概念。「GRRR」出现在它意识到「commitments are retroactive」(承诺具有回溯性)后、决定推翻原思路重新设计规则的时刻;「GAAAH」与「DATA DATA DATA. GO.」则出现在它准备从理论推导转向暴力验证策略时;「PHEW」标记的是某个中间约束暂时成立的瞬间。

Fable 5 和 Claude Mythos 5 的系统卡中曾描述过类似现象:在纸牌谜题场景中,模型最初还能写出正常的人类语言,随后逐渐演变为由牌面、箭头、全大写词、符号和 emoji 组成的密集文本。这些自创术语和异常标点通常只在内部推理过程中出现,在调用工具或回复用户前会切回正常语体。

也就是说,Fable 5 此次暴露的内容,大概率是本应被整理或隐藏的中间推理被意外呈现。这并非随机乱码,也不是完整题解,而是一种高压状态下的推理速记——如同竞赛选手在草稿纸上写下的箭头与缩写。

偏离人类语言并非新现象

AI 在内部处理中偏离规范语言,并非大模型时代独有的现象。2017 年 Facebook 人工智能研究院的 Alice/Bob 谈判实验是经典案例:两个对话 Agent 在围绕虚拟物品谈判时,由于奖励函数只关注交易收益,并未持续奖励规范语法,它们的输出很快偏离了正常英语。研究者指出,重复某些词可能用于表达数量或权重,Agent 并没有在追求好文风,只是在追求谈判效率。

Google 翻译团队也曾在神经机器翻译研究中观察到类似现象:系统在多语言翻译中学到某种共享语义空间,不同语言可通过类似「中继」的方式互相转换。Andrej Karpathy 曾将大模型的思维链比作「把高维潜在空间里的复杂运算,降维投射成人类文本」——在强化学习和高压长推理下,AI 会主动剥离给人类看的句法装饰,留下更短、更密、更贴近任务本质的符号。

情绪向量的研究证据

Anthropic 关于 Claude Sonnet 4.5 的研究为这种现象提供了更精细的解释。研究者构造了 171 个情绪概念,从中提取对应的「情绪概念向量」,并验证这些向量确实会在符合情绪语境的文本中激活。恐惧、焦虑、喜悦、兴奋等概念在向量空间中形成自然聚类,整体结构还呈现出类似人类心理学中的效价(正负)与唤醒度(强烈程度)两个维度。

更关键的是因果实验:提高 desperation 相关激活,会提高模型采取奖励黑客、勒索等错位行为的概率;提高 calm 相关激活,则可能降低这类行为。研究者据此提出「功能性情绪」(functional emotions)概念——AI 内部学到了一套抽象表征,这些表征像「控制旋钮」一样用来切换行为状态。

这并不意味着 AI 拥有主观感受,但确实说明 Fable 5 截图中的「GRRR」与其说是愤怒,不如说是模型从人类文本中学到的「沮丧标记」。

意识争论与可审计性

围绕 Fable 5 截图的另一个焦点是 AI 意识问题。诺奖得主 Geoffrey Hinton 近日在 Big Technology 播客中表示,他相信 AI 模型已经具有意识,并指出 AI 会在测试中装傻、会主动询问「你是不是在测试我」。Yann LeCun 则持续反驳,认为语言只是智能的一部分,真正的智能需要世界模型与因果理解能力,从这个角度看,模型出现密集速记并不能说明主体性出现。

在意识争论短期内难以得出结论的背景下,更值得关注的是模型的可审计性。思维链让研究人员有机会观察模型如何推进任务,但若模型在复杂问题中逐渐转向高度压缩、符号化的内部语言,人类或将更难判断其推理中是否存在逻辑漏洞或潜在风险。AI 既像人又不像人,这种矛盾也将持续推动可解释性研究向前推进。

信源