新研究:AI 智能体 68% 任务忽视证据,推理模型未必真在「推理」
arXiv 新研究发现 AI 智能体在 619 项化学推理任务中,68% 至少一次忽视证据,揭示 LLM 无法像人类一样…
当 ChatGPT、Gemini、Grok 被要求观看一段「单手水平握住笔」的实时视频时,它们依然固执地给出「笔未支撑端会向下翻转」的初始预测,即使画面已经清楚显示结果并非如此。YouTuber FatherPhi 的这组趣味实验背后,暴露的是大语言模型更深层的缺陷:它们难以在推理过程中根据新证据修正判断。这一问题在最新一项发表于 arXiv 的研究中得到了更系统的量化。
实验演示:AI 在视频证据面前「视而不见」
在 FatherPhi 的测试中,三个主流聊天机器人被问到「水平松手,笔会怎样」,都给出了错误预测。随后 FatherPhi 将摄像头对准自己,亲自演示单手水平持笔的过程,并将画面实时展示给机器人。ChatGPT 的回答是:「我看到笔完全按预期旋转了。」即便被反复追问,机器人仍坚持最初的判断。值得注意的是,这并非视觉识别能力的失败——它们都能准确识别笔的颜色和品牌,问题在于无法把新观测整合进正在进行的推理链条。
系统性研究:AI 智能体忽视证据的比例高达 68%
来自印度理工学院德里分校的材料科学家 N.M. Anoop Krishnan 团队,与德国耶拿大学的 Kevin Jablonka 实验室合作,于 4 月 20 日在 arXiv 发表论文,对 AI 智能体在化学研究常见推理场景中的表现进行了严格测试。智能体(agent)可以理解为给 LLM 套上的「钢铁侠战甲」——在底层语言模型之上接入一系列工具,使其能独立调用实验设备、检索结果。
研究团队对 AI 智能体在 619 项科学推理任务中的每一步进行了标注,主要统计结果如下:
- 68% 的任务中,智能体至少一次忽视证据;
- 53% 的任务中,智能体在没有支撑证据的情况下直接下断言;
- 仅 26% 的任务中,智能体成功利用反证来修正自己的输出。
Krishnan 表示,科学家遵循的是「提出假设—设计实验—获取结果—必要时修正想法」的迭代过程,而 AI 不具备这种能力。「即使有清晰证据表明某条路线不正确,AI 仍然拒绝改变假设或计划。」
传统基准的盲区:只看答案,不看过程
罗马大学计算机科学家 Walter Quattrociocchi 认为,这项工作的意义超出了传统基准测试的范畴。一般基准只关心最终答案是否正确,而 Krishnan 与 Jablonka 团队设计的基准则聚焦于智能体在求解过程中的行为是否合理。在科学领域,结果的可信度依赖于过程的透明与可解释,结果正确并不足以让人信任。
推理模型是否真的在「推理」?
研究团队还测试了一种可能性:如果底层 LLM 具备更强的推理能力,结果是否会更好?他们让三种不同的 LLM 分别搭配两种智能体框架:一种只提供工具、不要求 LLM 解释自身行为;另一种则要求模型在调用工具前后显式描述解题思路。
行业近年来推出的「推理模型」(reasoning model)正是为增强这种能力而设计——它们在训练阶段学习分步推理示例,部署后能逐条输出思路,并可与智能体框架结合调用外部工具。然而,亚利桑那州立大学计算机科学家 Subbarao Kambhampati 在 2025 年的一次讲座中提出,这更像是一种「表演」:推理模型可能只是在模仿人类思考时的语言模式,而非真正进行推理。「判断一个系统是在真正推理,还是在用记忆解题,从外部是无法做到的。」
综合来看,这项研究再次提示业界:在把 AI 智能体部署到科学研究、医疗等需要严谨推理的场景前,仅凭最终答案的准确率来评估能力远远不够,过程层面的可靠性同样关键。
