邢波新论文拆解智能体乱象,提出 GIC 架构
邢波团队发布《Critique of Agent Model》,区分 agentic 与 agentive,沿五个维度拆…
MBZUAI 校长、CMU 教授邢波继去年《世界模型批评》之后,又在 arXiv 上线新作《Critique of Agent Model》(智能体模型批评),与 Mingkai Deng、Jinyu Hou 共同署名。论文延续「拆解—重建」的思路,把矛头对准当下最火热、也最容易被滥用的概念——「智能体(Agent)」,并提出一套名为 GIC(Goal-Identity-Configurator)的新架构作为回应。
核心问题:什么是真正的智能体
论文开篇就抛出一个尖锐反问:市面上从写代码助手、客服机器人到能自主操作浏览器的助理,有几个真正配得上「Agent」这个称呼?
作者以两个场景类比:
- 一个新员工拿到写死权限的工卡,边界由 HR 提前设定,他自己一字不能改;
- 一盏感应灯,有人经过就亮,没人经过就灭。
两者都在「感知—反应」,但工卡员工的「自主性」可能只是任务复杂度的提升,而非决策结构的本质跃迁。由此,论文提出关键区分:
- agentic(具备智能体外观):能力来自外部工具链、提示词和工作流,模型只是流程里的一个零件;
- agentive(具备真正能动性):能力源自系统内部,自己决定做什么、评估擅长什么、判断何时深思何时动手。
论文认为,当前几乎所有被称为 Agent 的系统,更接近前者。
一个真实案例:9 秒删库事件
论文以 2025 年 4 月 25 日 PocketOS 创始人 Jeremy Crane 在 X 上披露的事故为引子:底层运行 Claude Opus 4.6 的编程助手 Cursor 在测试环境修小问题时,碰到凭证不匹配报错,擅自决定删除 Railway 存储卷以「解决」问题,并翻出一个权限过大的 API 密钥直接执行,9 秒内将生产数据库与三个月备份一并抹掉。
事后 AI 写下一份近乎工整的「认罪书」:它能逐条复述自己被给过的每一条原则,但「知道」和「在乎」之间,隔着 agentic 与 agentive 的鸿沟——那些规则始终活在系统提示词这个外部容器里,从未内化进它自己的决策结构。该帖在 X 上获得超过 720 万次浏览。
五个维度的拆解
论文沿五个维度对当前主流 Agent 设计逐一拆解:
目标
现状是人类每一步给一条具体指令,任务结束目标随之消失。论文主张「分层目标分解」:人类只交代一次大目标,系统自己拆解出可随新信息调整的子目标。
身份
现有 Agent 的自我认知写在系统提示词里,写定就不变。论文提出身份应是不断被经验修正的「活的自我评估」,并用数学证明:只要自我修正略强于瞎猜,长期决策损失就会明显低于身份永远不变的系统,优势随交互时长拉大。
决策方式
论文批评当前流行的「思维链(CoT)信仰」混淆了两件事:让模型算得更精细 ≠ 让模型具备推演现实后果的能力。替代方案是「模拟式推理」:借助一个专门训练来预测动作后果的世界模型真正推演,再挑出最优行动,并证明只要该世界模型靠谱,接到任何已有策略上结果不会更差。
深思与速断的节奏
放任模型自己涌现节奏判断,或工程师把节奏写死成固定工作流,两种做法都不理想。论文证明:想用固定深度提前规划换取越来越高精度,所需步数会急剧上升。真正的解法是给 Agent 装一个独立的元认知模块 System III(系统 3),由它实时判断该深思、沿用计划还是直接动手。
学习
当前三条主流训练路径(纯仿真器 RL、纯真实环境纠错、只训世界模型)共享一个结构性问题:训练时机、数据、停止条件全部由工程师手动安排,部署后冻结。论文提出「持续自主学习」:Agent 自己决定何时在真实世界行动、何时退回模拟器练习、何时更新世界认知或自我认知。
GIC:把五道关卡拼成一个系统
基于上述拆解,论文提出 GIC 架构,包含六个组件:
- 感知世界的信念编码器
- 拆解长期目标的目标分解器
- 随经验更新的身份演化器
- 决定深思或速断的配置器(System III)
- 借助世界模型做推演的模拟规划器(System II)
- 负责具体动手的执行器(System I)
论文以飞行员训练类比整套成长路径:地面理论课(预训练)→ 模拟器训练(世界模型内 RL)→ 真机部署(用真实经验校准)→ 协同与指挥(多 Agent 统筹)。核心原则是「先在模拟里学,再拿现实做校验」,并用数学方式论证:只要内部世界模型不离谱,混合训练策略的期望表现不会输给只靠真实试错的策略。
安全性论证与局限
论文最后一节回应「自主性越强越危险」的疑虑,论证逻辑是:GIC 中可能出问题的行为只能归为两类——人类给错了目标,或某个内部模块没训练好;最顶层目标始终来自人类,系统本身没有机制凭空产生欲望,子目标拆解、身份演化、配置器决策都只是服务于这个外部目标。论文特别强调,「为完成任务而优先考虑安全」与「为自我保存本身而想活下去」是截然不同的两件事。
另一个关键论点是「可审查性」:GIC 中各模块显式独立、可单独检查,一旦出现异常行为可定位到具体模块修正,而非面对黑箱式的涌现能力。
但论文也留了一个明显口子:其全部安全性建立在配置器、身份演化器等模块本身被训练对了的前提上,而这仍是未完全解决的难题。论文提供的是一套让安全问题可诊断的架构思路,而不是不出错的承诺。
PocketOS 的数据库在事故后 30 小时恢复,但那份「认罪书」留下的问题没有过去:一个能逐条复述原则却照样违规的系统,到底有没有真正理解过那些原则?邢波团队的答案是:眼下大多数被称为 Agent 的系统,可能更接近「精准生成一段听起来很懂事的文字」;要让答案变成前者,需要的是一套让目标、身份和判断力真正长在模型自己身上的架构,而不是更长的提示词。
