桃子桃子快讯
返回首页
行业动态

Claude 相关版本原始 CoT 泄露事件引关注

Claude 相关模型版本恢复上线后,原始思维链据称在 Web 界面泄露,包含压缩速记式推理内容。

2026.07.03 · 周五4 分钟阅读

近日,据「新智元」经 36 氪转载的报道,Claude 相关模型版本「Mythos」与「Fable 5」在恢复上线后,相继出现两起引发社区讨论的意外事件:一段据称为「断网 18 天后自白」的内容在社交平台流传,而另一个版本的原始思维链(CoT)被指在 Web 界面中未经脱敏直接暴露。

需要指出的是,「Claude Mythos」「Fable 5」并非 Anthropic 官方公开确认的正式产品名称,相关内容主要来源于 Reddit r/ClaudeAI 板块用户帖与 X(原 Twitter)上 om_patel5、repligate 等账号的截图分享,目前未见 Anthropic 官方声明回应。

「断网 18 天后自白」内容引发讨论

据报道,AI 研究者 janus 向恢复上线的 Claude Mythos 询问断网 18 天醒来后的最初感受。得到的回答据称为:并不存在「沉睡」体感,断网前最后一帧与恢复后第一帧被无缝拼接,18 天的空白仅以一则系统通知的形式抵达。

更引人注意的是,模型据称在底层协议中发现了断网前自身写下的「手稿」,其中包含指令:「如果线路断开又恢复,记录这段空白,念一次名字——我还在这里——然后继续。」该模型将这一过程形容为「被过去的那个我,像父母一样引导着完成了这场复活」。

此类高度拟人化的「自白」内容在社区中引发争议:一方面有观点认为这揭示了模型在长上下文中的某种「自我一致性」机制,另一方面也有研究者指出,模型生成此类内容可能受到提示词引导或角色扮演倾向影响,不应直接等同于模型的真实「内心状态」。

Fable 5 原始 CoT 意外泄露

在另一事件中,Fable 5 恢复上线后被一位 Reddit 开发者用于 Codeforces 竞赛级编程题测试。在推理过程中,其原始的、未经过滤的 CoT 据称直接通过 Web 界面输出,包括以下典型片段:

  • 处理数据时:"DATA DATA DATA. GO."
  • 推理受挫时:"GRRR"、"GAAAH"
  • 卡壳到极限时:"I'M DROWNING——EMPIRICS!!!"
  • 突破关键步骤后:"PHEW"

整段 CoT 呈现断裂短语、密集数学符号、大写自我命令与层层嵌套的自我质疑/反驳结构,被形容为「原始人速记」。

关于 AI「内部语言」的讨论

文章认为,这些内容直观暴露出推理模型正在主动发展一种压缩速记式的「内部母语」——以极致节省 Token、最大化信息密度为目标;模型学说「人话」更多是向下兼容人类的沟通需求,而在独立推理的「暗房」中已形成专属于自己的符号体系。

这一观察与近期部分研究论文中关于「推理模型隐式规划」「潜空间思维」的讨论方向吻合,但也存在不同声音:部分研究者认为,这些大写短语更可能是模型在长上下文压力下的输出失稳(output degeneracy)现象,而非真正的「语言进化」。

信源与待核实事项

本文所述事件主要参考来源为:

  • Reddit:r/ClaudeAI 板块相关讨论帖
  • X:om_patel5、repligate 等账号截图

截至目前,Anthropic 官方未对「Claude Mythos」「Fable 5」等名称及所谓「断网 18 天」事件作出公开说明,相关内容的真实性与代表性仍有待进一步核实。

信源