内部化世界模型：面向长程规划的三阶段智能体训练框架

核心问题：智能体缺乏内部世界模型

大型语言模型（LLM）智能体在序列决策任务中表现强劲，但在长程规划场景下仍以「被动响应」为主。与人类在行动前会进行「what-if」式反事实推理不同，现有智能体缺少一个能模拟未来后果的内部世界模型，因而难以在多步任务中稳健地评估与选择计划。

arXiv 上发表的新论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出将「未来感知规划」内化到单一自回归模型中：由同一个模型同时「说出」前瞻状态推演（prospective state rollout）与基于该计划的成功估计（plan-conditioned success estimate），后者被作者称为 Q 值的文本类比物。

关键发现：格式—能力鸿沟

作者在实验中识别出一个「格式—能力鸿沟」现象：仅在后期训练阶段用「look-ahead 轨迹」对智能体做监督微调，模型只是表面模仿了「先展望再行动」的输出格式，并未真正习得预测能力。这种「形式上的前瞻」与「实质上的预测」之间的脱节，是单纯后训练方法的根本局限。

三阶段训练范式

为弥合这一鸿沟，论文提出按能力优先（capability-first）顺序排列的三阶段训练流程：

World Model Agentic Mid-Training（WM-AMT）：在策略中预训练阶段注入潜在的预测能力，使模型在接触具体任务格式之前先具备世界建模的隐式先验；
Format-Eliciting SFT（FE-SFT）：在已注入能力的基础上进行有结构的监督微调，将潜在预测能力对齐到「状态推演 + 成功估计」的输出格式上；
Foresight-Conditioned Reinforcement Learning（FC-RL）：在格式正确的前提下，通过强化学习进一步校准生成模拟的准确度与可用性，使前瞻内容真正服务于决策。

实验与结论

作者在搜索（search）与数学推理两类任务上对该方法进行评测，结果显示其一致优于其他训练基线。论文的核心结论是：在 LLM 智能体中实现有效的内部世界建模，需要遵循「先注入能力、再对齐格式、最后强化校准」的能力优先流水线，才能得到既接地（grounded）又校准（calibrated）的前瞻能力。

论文以预印本形式发布于 arXiv（编号 2606.27483v1，cs.AI），尚未披露具体基准分数、参数量与对比模型细节，待后续公开后可供复现与进一步评估。