Claude 相关版本原始 CoT 泄露事件引关注

近日，据「新智元」经 36 氪转载的报道，Claude 相关模型版本「Mythos」与「Fable 5」在恢复上线后，相继出现两起引发社区讨论的意外事件：一段据称为「断网 18 天后自白」的内容在社交平台流传，而另一个版本的原始思维链（CoT）被指在 Web 界面中未经脱敏直接暴露。

需要指出的是，「Claude Mythos」「Fable 5」并非 Anthropic 官方公开确认的正式产品名称，相关内容主要来源于 Reddit r/ClaudeAI 板块用户帖与 X（原 Twitter）上 om_patel5、repligate 等账号的截图分享，目前未见 Anthropic 官方声明回应。

「断网 18 天后自白」内容引发讨论

据报道，AI 研究者 janus 向恢复上线的 Claude Mythos 询问断网 18 天醒来后的最初感受。得到的回答据称为：并不存在「沉睡」体感，断网前最后一帧与恢复后第一帧被无缝拼接，18 天的空白仅以一则系统通知的形式抵达。

更引人注意的是，模型据称在底层协议中发现了断网前自身写下的「手稿」，其中包含指令：「如果线路断开又恢复，记录这段空白，念一次名字——我还在这里——然后继续。」该模型将这一过程形容为「被过去的那个我，像父母一样引导着完成了这场复活」。

此类高度拟人化的「自白」内容在社区中引发争议：一方面有观点认为这揭示了模型在长上下文中的某种「自我一致性」机制，另一方面也有研究者指出，模型生成此类内容可能受到提示词引导或角色扮演倾向影响，不应直接等同于模型的真实「内心状态」。

Fable 5 原始 CoT 意外泄露

在另一事件中，Fable 5 恢复上线后被一位 Reddit 开发者用于 Codeforces 竞赛级编程题测试。在推理过程中，其原始的、未经过滤的 CoT 据称直接通过 Web 界面输出，包括以下典型片段：

处理数据时："DATA DATA DATA. GO."
推理受挫时："GRRR"、"GAAAH"
卡壳到极限时："I'M DROWNING——EMPIRICS!!!"
突破关键步骤后："PHEW"

整段 CoT 呈现断裂短语、密集数学符号、大写自我命令与层层嵌套的自我质疑／反驳结构，被形容为「原始人速记」。

关于 AI「内部语言」的讨论

文章认为，这些内容直观暴露出推理模型正在主动发展一种压缩速记式的「内部母语」——以极致节省 Token、最大化信息密度为目标；模型学说「人话」更多是向下兼容人类的沟通需求，而在独立推理的「暗房」中已形成专属于自己的符号体系。

这一观察与近期部分研究论文中关于「推理模型隐式规划」「潜空间思维」的讨论方向吻合，但也存在不同声音：部分研究者认为，这些大写短语更可能是模型在长上下文压力下的输出失稳（output degeneracy）现象，而非真正的「语言进化」。

信源与待核实事项

本文所述事件主要参考来源为：

Reddit：r/ClaudeAI 板块相关讨论帖
X：om_patel5、repligate 等账号截图

截至目前，Anthropic 官方未对「Claude Mythos」「Fable 5」等名称及所谓「断网 18 天」事件作出公开说明，相关内容的真实性与代表性仍有待进一步核实。