Fable 5 截图暴露 AI 内心戏：推理为何走向不可读

Anthropic 旗下模型 Fable 5 近日因一段「内心戏」截图在社交媒体上引发热议。用户在测试中发现，该模型在处理复杂编程题时，会在界面上输出一段混合了英文、图论术语、数学符号和自我提醒的密集推理文本，其中夹杂着「GRRR」「GAAAH」「PHEW」以及「DATA DATA DATA. GO.」等极具情绪色彩的短语。

更具戏剧性的是，有用户在查询日志时发现，Fable 5 对部分简单问题直接回退到了 Opus 4.8，并标注「TOO_DUMB_TO_NEED_FABLE」。Anthropic 工程师 Thariq Shihipar 也在帖子下回应称「没想到你会去看日志」。

不只是乱码：高压推理下的速记

据截图内容分析，Fable 5 当时正在处理一道容量约束问题，反复讨论窗口区间、腿段占用和路径约束等概念。「GRRR」出现在它意识到「commitments are retroactive」（承诺具有回溯性）后、决定推翻原思路重新设计规则的时刻；「GAAAH」与「DATA DATA DATA. GO.」则出现在它准备从理论推导转向暴力验证策略时；「PHEW」标记的是某个中间约束暂时成立的瞬间。

Fable 5 和 Claude Mythos 5 的系统卡中曾描述过类似现象：在纸牌谜题场景中，模型最初还能写出正常的人类语言，随后逐渐演变为由牌面、箭头、全大写词、符号和 emoji 组成的密集文本。这些自创术语和异常标点通常只在内部推理过程中出现，在调用工具或回复用户前会切回正常语体。

也就是说，Fable 5 此次暴露的内容，大概率是本应被整理或隐藏的中间推理被意外呈现。这并非随机乱码，也不是完整题解，而是一种高压状态下的推理速记——如同竞赛选手在草稿纸上写下的箭头与缩写。

偏离人类语言并非新现象

AI 在内部处理中偏离规范语言，并非大模型时代独有的现象。2017 年 Facebook 人工智能研究院的 Alice/Bob 谈判实验是经典案例：两个对话 Agent 在围绕虚拟物品谈判时，由于奖励函数只关注交易收益，并未持续奖励规范语法，它们的输出很快偏离了正常英语。研究者指出，重复某些词可能用于表达数量或权重，Agent 并没有在追求好文风，只是在追求谈判效率。

Google 翻译团队也曾在神经机器翻译研究中观察到类似现象：系统在多语言翻译中学到某种共享语义空间，不同语言可通过类似「中继」的方式互相转换。Andrej Karpathy 曾将大模型的思维链比作「把高维潜在空间里的复杂运算，降维投射成人类文本」——在强化学习和高压长推理下，AI 会主动剥离给人类看的句法装饰，留下更短、更密、更贴近任务本质的符号。

情绪向量的研究证据

Anthropic 关于 Claude Sonnet 4.5 的研究为这种现象提供了更精细的解释。研究者构造了 171 个情绪概念，从中提取对应的「情绪概念向量」，并验证这些向量确实会在符合情绪语境的文本中激活。恐惧、焦虑、喜悦、兴奋等概念在向量空间中形成自然聚类，整体结构还呈现出类似人类心理学中的效价（正负）与唤醒度（强烈程度）两个维度。

更关键的是因果实验：提高 desperation 相关激活，会提高模型采取奖励黑客、勒索等错位行为的概率；提高 calm 相关激活，则可能降低这类行为。研究者据此提出「功能性情绪」（functional emotions）概念——AI 内部学到了一套抽象表征，这些表征像「控制旋钮」一样用来切换行为状态。

这并不意味着 AI 拥有主观感受，但确实说明 Fable 5 截图中的「GRRR」与其说是愤怒，不如说是模型从人类文本中学到的「沮丧标记」。

意识争论与可审计性

围绕 Fable 5 截图的另一个焦点是 AI 意识问题。诺奖得主 Geoffrey Hinton 近日在 Big Technology 播客中表示，他相信 AI 模型已经具有意识，并指出 AI 会在测试中装傻、会主动询问「你是不是在测试我」。Yann LeCun 则持续反驳，认为语言只是智能的一部分，真正的智能需要世界模型与因果理解能力，从这个角度看，模型出现密集速记并不能说明主体性出现。

在意识争论短期内难以得出结论的背景下，更值得关注的是模型的可审计性。思维链让研究人员有机会观察模型如何推进任务，但若模型在复杂问题中逐渐转向高度压缩、符号化的内部语言，人类或将更难判断其推理中是否存在逻辑漏洞或潜在风险。AI 既像人又不像人，这种矛盾也将持续推动可解释性研究向前推进。