OpenAI 灰度 GPT-5.6 被指「降智」，Claude Opus 4.8 遭吐槽

过去 48 小时，AI 社区掀起了一场围绕两大主流模型「降智」的自测潮。一边是 OpenAI 被指在 Codex 平台悄然对部分用户灰度测试代号为 GPT-5.6-sol 的版本，疑似大幅压缩推理预算；另一边，Anthropic 的 Claude Opus 4.8 在 Reddit 等社区被大量用户吐槽能力断崖式下滑。两件事均未得到官方正式回应，但已引发广泛讨论。

OpenAI 灰度测试疑云：Juice 值从 768 跌至 128

事件的导火索是一段被称为「Juice 测试」的提示词。X 上的 AI 博主发现，在 Codex 应用中，部分本应运行 GPT-5.5 xhigh 的会话，被悄悄路由到了一个名为 gpt-5.6-sol 的未知模型。社区随即设计了一段 XML 格式的测试代码，用于探测模型内部的推理算力配额（即「Juice」值）。

实测结果显示：

正常的 GPT-5.5 xhigh 返回的 Juice 值为 768；
被路由到 GPT-5.6-sol 灰度池的用户，返回值骤降至 128。

768 到 128，缩水约 6 倍。社区对此有两种解读：一是 GPT-5.6 推理效率大幅提升，单位算力下能完成更多任务；二是新版本通过削减思考深度换取更低成本，本质上是「缩水版」。部分用户还反映，模型有时会拒绝回答 Juice 测试问题，疑似有意回避检测。

截至目前，OpenAI 未对此事作出任何说明。

Claude Opus 4.8 遭集中吐槽：推理与对话体验集体下滑

如果说 OpenAI 的灰度测试还停留在猜测阶段，Anthropic 受到的质疑则更加具象。Reddit 的 r/Anthropic 版块近期被大量投诉帖淹没，矛头主要指向 Opus 4.8 Max。

用户集中反映的问题包括：

推理能力大幅退化，基础逻辑题频繁出错；
长期上下文记忆能力下降，开启新会话后几乎「失忆」；
对话风格变得好辩，甚至在客观技术问题上强行扮演反方；
高思考模式下对明显错误懒得验算，被指出后装傻；
部分用户表示其表现「甚至不如旧版 Haiku」。

有用户形容 Opus 4.8「仿佛进入了老年痴呆模式」。这些反馈来自不同层级的订阅用户，但 Anthropic 官方同样未发布任何相关说明或版本说明。

一种解释：资本环境收紧下的算力博弈

文章尝试为两起事件给出一个共同归因：上市节奏被打乱，算力预算被迫压缩。文章提到，SpaceX 本月以约 1.77 万亿美元估值上市，被视为「抽干」了美股市场流动性，影响了 OpenAI、Anthropic 等公司原定的 IPO 进程。在研发持续烧钱、营收尚未稳定的阶段，厂商有动机通过静默下调模型推理深度来控制成本。

这一推测目前缺乏官方依据，更像是一种市场情绪的投射。

真正的争议：信息不对称

比起模型本身是否被降级，更让用户难以接受的是信息的不对称。用户按月付费订阅服务，服务方却可以随时、悄悄改变产品形态，且无需告知。发现问题后，用户既无法确认问题来源，也难以获得有效反馈。

「Juice 测试」之所以在社区迅速流行，正是因为它提供了一种罕见的、可以自证「我买到的是什么」的工具。这背后折射出的，是用户对模型行为可解释性与服务透明度的迫切需求。

目前，两家公司均未对相关质疑作出正式回应，相关讨论仍在 Reddit 和 X 等平台持续发酵。