桃子桃子 AI 快讯
返回首页
行业动态

OpenAI 灰度 GPT-5.6 被指「降智」,Claude Opus 4.8 遭吐槽

社区用户发现 OpenAI 在 Codex 灰度测试 GPT-5.6,推理算力疑似缩水;同时 Claude Opus 4…

2026.06.30 · 周二4 分钟阅读评分 53
评分细项加权总分 53
重要性
55
新颖性
55
影响面
55
可信度
40
实质性
50

过去 48 小时,AI 社区掀起了一场围绕两大主流模型「降智」的自测潮。一边是 OpenAI 被指在 Codex 平台悄然对部分用户灰度测试代号为 GPT-5.6-sol 的版本,疑似大幅压缩推理预算;另一边,Anthropic 的 Claude Opus 4.8 在 Reddit 等社区被大量用户吐槽能力断崖式下滑。两件事均未得到官方正式回应,但已引发广泛讨论。

OpenAI 灰度测试疑云:Juice 值从 768 跌至 128

事件的导火索是一段被称为「Juice 测试」的提示词。X 上的 AI 博主发现,在 Codex 应用中,部分本应运行 GPT-5.5 xhigh 的会话,被悄悄路由到了一个名为 gpt-5.6-sol 的未知模型。社区随即设计了一段 XML 格式的测试代码,用于探测模型内部的推理算力配额(即「Juice」值)。

实测结果显示:

  • 正常的 GPT-5.5 xhigh 返回的 Juice 值为 768;
  • 被路由到 GPT-5.6-sol 灰度池的用户,返回值骤降至 128。

768 到 128,缩水约 6 倍。社区对此有两种解读:一是 GPT-5.6 推理效率大幅提升,单位算力下能完成更多任务;二是新版本通过削减思考深度换取更低成本,本质上是「缩水版」。部分用户还反映,模型有时会拒绝回答 Juice 测试问题,疑似有意回避检测。

截至目前,OpenAI 未对此事作出任何说明。

Claude Opus 4.8 遭集中吐槽:推理与对话体验集体下滑

如果说 OpenAI 的灰度测试还停留在猜测阶段,Anthropic 受到的质疑则更加具象。Reddit 的 r/Anthropic 版块近期被大量投诉帖淹没,矛头主要指向 Opus 4.8 Max。

用户集中反映的问题包括:

  • 推理能力大幅退化,基础逻辑题频繁出错;
  • 长期上下文记忆能力下降,开启新会话后几乎「失忆」;
  • 对话风格变得好辩,甚至在客观技术问题上强行扮演反方;
  • 高思考模式下对明显错误懒得验算,被指出后装傻;
  • 部分用户表示其表现「甚至不如旧版 Haiku」。

有用户形容 Opus 4.8「仿佛进入了老年痴呆模式」。这些反馈来自不同层级的订阅用户,但 Anthropic 官方同样未发布任何相关说明或版本说明。

一种解释:资本环境收紧下的算力博弈

文章尝试为两起事件给出一个共同归因:上市节奏被打乱,算力预算被迫压缩。文章提到,SpaceX 本月以约 1.77 万亿美元估值上市,被视为「抽干」了美股市场流动性,影响了 OpenAI、Anthropic 等公司原定的 IPO 进程。在研发持续烧钱、营收尚未稳定的阶段,厂商有动机通过静默下调模型推理深度来控制成本。

这一推测目前缺乏官方依据,更像是一种市场情绪的投射。

真正的争议:信息不对称

比起模型本身是否被降级,更让用户难以接受的是信息的不对称。用户按月付费订阅服务,服务方却可以随时、悄悄改变产品形态,且无需告知。发现问题后,用户既无法确认问题来源,也难以获得有效反馈。

「Juice 测试」之所以在社区迅速流行,正是因为它提供了一种罕见的、可以自证「我买到的是什么」的工具。这背后折射出的,是用户对模型行为可解释性与服务透明度的迫切需求。

目前,两家公司均未对相关质疑作出正式回应,相关讨论仍在 Reddit 和 X 等平台持续发酵。

信源