新研究：AI 智能体 68% 任务忽视证据，推理模型未必真在「推理」

当 ChatGPT、Gemini、Grok 被要求观看一段「单手水平握住笔」的实时视频时，它们依然固执地给出「笔未支撑端会向下翻转」的初始预测，即使画面已经清楚显示结果并非如此。YouTuber FatherPhi 的这组趣味实验背后，暴露的是大语言模型更深层的缺陷：它们难以在推理过程中根据新证据修正判断。这一问题在最新一项发表于 arXiv 的研究中得到了更系统的量化。

实验演示：AI 在视频证据面前「视而不见」

在 FatherPhi 的测试中，三个主流聊天机器人被问到「水平松手，笔会怎样」，都给出了错误预测。随后 FatherPhi 将摄像头对准自己，亲自演示单手水平持笔的过程，并将画面实时展示给机器人。ChatGPT 的回答是：「我看到笔完全按预期旋转了。」即便被反复追问，机器人仍坚持最初的判断。值得注意的是，这并非视觉识别能力的失败——它们都能准确识别笔的颜色和品牌，问题在于无法把新观测整合进正在进行的推理链条。

系统性研究：AI 智能体忽视证据的比例高达 68%

来自印度理工学院德里分校的材料科学家 N.M. Anoop Krishnan 团队，与德国耶拿大学的 Kevin Jablonka 实验室合作，于 4 月 20 日在 arXiv 发表论文，对 AI 智能体在化学研究常见推理场景中的表现进行了严格测试。智能体（agent）可以理解为给 LLM 套上的「钢铁侠战甲」——在底层语言模型之上接入一系列工具，使其能独立调用实验设备、检索结果。

研究团队对 AI 智能体在 619 项科学推理任务中的每一步进行了标注，主要统计结果如下：

68% 的任务中，智能体至少一次忽视证据；
53% 的任务中，智能体在没有支撑证据的情况下直接下断言；
仅 26% 的任务中，智能体成功利用反证来修正自己的输出。

Krishnan 表示，科学家遵循的是「提出假设—设计实验—获取结果—必要时修正想法」的迭代过程，而 AI 不具备这种能力。「即使有清晰证据表明某条路线不正确，AI 仍然拒绝改变假设或计划。」

传统基准的盲区：只看答案，不看过程

罗马大学计算机科学家 Walter Quattrociocchi 认为，这项工作的意义超出了传统基准测试的范畴。一般基准只关心最终答案是否正确，而 Krishnan 与 Jablonka 团队设计的基准则聚焦于智能体在求解过程中的行为是否合理。在科学领域，结果的可信度依赖于过程的透明与可解释，结果正确并不足以让人信任。

推理模型是否真的在「推理」？

研究团队还测试了一种可能性：如果底层 LLM 具备更强的推理能力，结果是否会更好？他们让三种不同的 LLM 分别搭配两种智能体框架：一种只提供工具、不要求 LLM 解释自身行为；另一种则要求模型在调用工具前后显式描述解题思路。

行业近年来推出的「推理模型」（reasoning model）正是为增强这种能力而设计——它们在训练阶段学习分步推理示例，部署后能逐条输出思路，并可与智能体框架结合调用外部工具。然而，亚利桑那州立大学计算机科学家 Subbarao Kambhampati 在 2025 年的一次讲座中提出，这更像是一种「表演」：推理模型可能只是在模仿人类思考时的语言模式，而非真正进行推理。「判断一个系统是在真正推理，还是在用记忆解题，从外部是无法做到的。」

综合来看，这项研究再次提示业界：在把 AI 智能体部署到科学研究、医疗等需要严谨推理的场景前，仅凭最终答案的准确率来评估能力远远不够，过程层面的可靠性同样关键。