桃子桃子 AI 快讯
返回首页
研究论文

内部化世界模型:面向长程规划的三阶段智能体训练框架

arXiv 论文提出三阶段训练范式,让单个自回归模型同时输出未来状态推演与计划成功率估计,在搜索与数学推理任务中优于基线…

2026.06.29 · 周一3 分钟阅读评分 57
评分细项加权总分 57
重要性
55
新颖性
65
影响面
50
可信度
60
实质性
55

核心问题:智能体缺乏内部世界模型

大型语言模型(LLM)智能体在序列决策任务中表现强劲,但在长程规划场景下仍以「被动响应」为主。与人类在行动前会进行「what-if」式反事实推理不同,现有智能体缺少一个能模拟未来后果的内部世界模型,因而难以在多步任务中稳健地评估与选择计划。

arXiv 上发表的新论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出将「未来感知规划」内化到单一自回归模型中:由同一个模型同时「说出」前瞻状态推演(prospective state rollout)与基于该计划的成功估计(plan-conditioned success estimate),后者被作者称为 Q 值的文本类比物。

关键发现:格式—能力鸿沟

作者在实验中识别出一个「格式—能力鸿沟」现象:仅在后期训练阶段用「look-ahead 轨迹」对智能体做监督微调,模型只是表面模仿了「先展望再行动」的输出格式,并未真正习得预测能力。这种「形式上的前瞻」与「实质上的预测」之间的脱节,是单纯后训练方法的根本局限。

三阶段训练范式

为弥合这一鸿沟,论文提出按能力优先(capability-first)顺序排列的三阶段训练流程:

  • World Model Agentic Mid-Training(WM-AMT):在策略中预训练阶段注入潜在的预测能力,使模型在接触具体任务格式之前先具备世界建模的隐式先验;
  • Format-Eliciting SFT(FE-SFT):在已注入能力的基础上进行有结构的监督微调,将潜在预测能力对齐到「状态推演 + 成功估计」的输出格式上;
  • Foresight-Conditioned Reinforcement Learning(FC-RL):在格式正确的前提下,通过强化学习进一步校准生成模拟的准确度与可用性,使前瞻内容真正服务于决策。

实验与结论

作者在搜索(search)与数学推理两类任务上对该方法进行评测,结果显示其一致优于其他训练基线。论文的核心结论是:在 LLM 智能体中实现有效的内部世界建模,需要遵循「先注入能力、再对齐格式、最后强化校准」的能力优先流水线,才能得到既接地(grounded)又校准(calibrated)的前瞻能力。

论文以预印本形式发布于 arXiv(编号 2606.27483v1,cs.AI),尚未披露具体基准分数、参数量与对比模型细节,待后续公开后可供复现与进一步评估。

信源