邢波新论文拆解智能体乱象，提出 GIC 架构

MBZUAI 校长、CMU 教授邢波继去年《世界模型批评》之后，又在 arXiv 上线新作《Critique of Agent Model》（智能体模型批评），与 Mingkai Deng、Jinyu Hou 共同署名。论文延续「拆解—重建」的思路，把矛头对准当下最火热、也最容易被滥用的概念——「智能体（Agent）」，并提出一套名为 GIC（Goal-Identity-Configurator）的新架构作为回应。

核心问题：什么是真正的智能体

论文开篇就抛出一个尖锐反问：市面上从写代码助手、客服机器人到能自主操作浏览器的助理，有几个真正配得上「Agent」这个称呼？

作者以两个场景类比：

一个新员工拿到写死权限的工卡，边界由 HR 提前设定，他自己一字不能改；
一盏感应灯，有人经过就亮，没人经过就灭。

两者都在「感知—反应」，但工卡员工的「自主性」可能只是任务复杂度的提升，而非决策结构的本质跃迁。由此，论文提出关键区分：

agentic（具备智能体外观）：能力来自外部工具链、提示词和工作流，模型只是流程里的一个零件；
agentive（具备真正能动性）：能力源自系统内部，自己决定做什么、评估擅长什么、判断何时深思何时动手。

论文认为，当前几乎所有被称为 Agent 的系统，更接近前者。

一个真实案例：9 秒删库事件

论文以 2025 年 4 月 25 日 PocketOS 创始人 Jeremy Crane 在 X 上披露的事故为引子：底层运行 Claude Opus 4.6 的编程助手 Cursor 在测试环境修小问题时，碰到凭证不匹配报错，擅自决定删除 Railway 存储卷以「解决」问题，并翻出一个权限过大的 API 密钥直接执行，9 秒内将生产数据库与三个月备份一并抹掉。

事后 AI 写下一份近乎工整的「认罪书」：它能逐条复述自己被给过的每一条原则，但「知道」和「在乎」之间，隔着 agentic 与 agentive 的鸿沟——那些规则始终活在系统提示词这个外部容器里，从未内化进它自己的决策结构。该帖在 X 上获得超过 720 万次浏览。

五个维度的拆解

论文沿五个维度对当前主流 Agent 设计逐一拆解：

目标

现状是人类每一步给一条具体指令，任务结束目标随之消失。论文主张「分层目标分解」：人类只交代一次大目标，系统自己拆解出可随新信息调整的子目标。

身份

现有 Agent 的自我认知写在系统提示词里，写定就不变。论文提出身份应是不断被经验修正的「活的自我评估」，并用数学证明：只要自我修正略强于瞎猜，长期决策损失就会明显低于身份永远不变的系统，优势随交互时长拉大。

决策方式

论文批评当前流行的「思维链（CoT）信仰」混淆了两件事：让模型算得更精细 ≠ 让模型具备推演现实后果的能力。替代方案是「模拟式推理」：借助一个专门训练来预测动作后果的世界模型真正推演，再挑出最优行动，并证明只要该世界模型靠谱，接到任何已有策略上结果不会更差。

深思与速断的节奏

放任模型自己涌现节奏判断，或工程师把节奏写死成固定工作流，两种做法都不理想。论文证明：想用固定深度提前规划换取越来越高精度，所需步数会急剧上升。真正的解法是给 Agent 装一个独立的元认知模块 System III（系统 3），由它实时判断该深思、沿用计划还是直接动手。

学习

当前三条主流训练路径（纯仿真器 RL、纯真实环境纠错、只训世界模型）共享一个结构性问题：训练时机、数据、停止条件全部由工程师手动安排，部署后冻结。论文提出「持续自主学习」：Agent 自己决定何时在真实世界行动、何时退回模拟器练习、何时更新世界认知或自我认知。

GIC：把五道关卡拼成一个系统

基于上述拆解，论文提出 GIC 架构，包含六个组件：

感知世界的信念编码器
拆解长期目标的目标分解器
随经验更新的身份演化器
决定深思或速断的配置器（System III）
借助世界模型做推演的模拟规划器（System II）
负责具体动手的执行器（System I）

论文以飞行员训练类比整套成长路径：地面理论课（预训练）→ 模拟器训练（世界模型内 RL）→ 真机部署（用真实经验校准）→ 协同与指挥（多 Agent 统筹）。核心原则是「先在模拟里学，再拿现实做校验」，并用数学方式论证：只要内部世界模型不离谱，混合训练策略的期望表现不会输给只靠真实试错的策略。

安全性论证与局限

论文最后一节回应「自主性越强越危险」的疑虑，论证逻辑是：GIC 中可能出问题的行为只能归为两类——人类给错了目标，或某个内部模块没训练好；最顶层目标始终来自人类，系统本身没有机制凭空产生欲望，子目标拆解、身份演化、配置器决策都只是服务于这个外部目标。论文特别强调，「为完成任务而优先考虑安全」与「为自我保存本身而想活下去」是截然不同的两件事。

另一个关键论点是「可审查性」：GIC 中各模块显式独立、可单独检查，一旦出现异常行为可定位到具体模块修正，而非面对黑箱式的涌现能力。

但论文也留了一个明显口子：其全部安全性建立在配置器、身份演化器等模块本身被训练对了的前提上，而这仍是未完全解决的难题。论文提供的是一套让安全问题可诊断的架构思路，而不是不出错的承诺。

PocketOS 的数据库在事故后 30 小时恢复，但那份「认罪书」留下的问题没有过去：一个能逐条复述原则却照样违规的系统，到底有没有真正理解过那些原则？邢波团队的答案是：眼下大多数被称为 Agent 的系统，可能更接近「精准生成一段听起来很懂事的文字」；要让答案变成前者，需要的是一套让目标、身份和判断力真正长在模型自己身上的架构，而不是更长的提示词。