桃子桃子快讯
返回首页
研究论文

LeCun 团队推出 AdaJEPA:让世界模型在部署中持续自我校准

纽约大学与 LeCun 创办的 AMI 提出 AdaJEPA 框架,让 JEPA 世界模型在测试时通过交互持续更新参数,…

2026.07.05 · 周日4 分钟阅读

LeCun 团队近日联合纽约大学 CILVR Lab 与其创立的初创公司 AMI,发布了 JEPA 系列世界模型的最新成果 AdaJEPA。这一框架打破了「世界模型预训练完即冻结」的传统做法,首次在 JEPA 路线中引入测试时自适应(Test-Time Adaptation, TTA)机制,使世界模型能够在与环境交互的过程中实时校准编码器与预测器参数,从而实现持续学习。

核心思路:从「冻结想象器」到「自校准模块」

传统基于 JEPA 的隐空间世界模型遵循一个默认前提:模型在离线轨迹上训练完毕后即被冻结,部署时通过模型预测控制(MPC)在隐空间内向前滚动预测,选出最优动作序列后执行第一步动作,再根据真实反馈重新规划。

然而一旦环境发生分布偏移(Test-time Distribution Shift),冻结的世界模型就会出现「失准」:在隐空间看似能到达目标的动作,落到真实环境后可能一步都不对。加之 MPC 本身依赖短时域滚动,单步误差会被快速放大。

AdaJEPA 的核心判断是:世界模型不应在训练结束后就被固定,而应在部署过程中像真正的智能体一样,用新经验持续修正自己对世界的理解。它将传统 MPC 的「规划—执行—再规划」循环扩展为「规划—执行—观测—更新—再规划」四步闭环。

四步闭环机制

  • 规划:将当前观测编码为 latent state,由当前世界模型进行 MPC,在隐空间内向前滚动预测,找出一串最接近目标状态的动作。
  • 执行:不一次性执行完整动作序列,仅执行第一段动作,等待真实环境返回下一帧观测。
  • 更新:将真实状态转移存入在线缓存区(默认仅保留最近 N 条),让模型基于观测与动作预测下一步 latent state,并与真实下一帧编码出的 latent state 对齐,通过梯度回传完成参数更新。
  • 再规划:更新后的世界模型立即进入下一轮 MPC。

为避免在线更新把原本的表征空间拉崩,论文设置了两项约束:一是对目标表征使用 stop-gradient;二是仅更新视觉编码器与预测器的最后几层,每次重规划只做 1 步梯度下降。

实验结果

研究团队在 PushT/PushObj 与 PointMaze 两个基准上验证了 AdaJEPA 的效果:

  • 在 PushObj 未见过形状上,AdaJEPA 几乎将规划成功率翻倍。
  • 在 PointMaze 未见过布局中,GD 规划成功率从 53.3% 提升至 78.7%,CEM 从 49.3% 提升至 70.7%。
  • 在分布内环境上同样优于固定世界模型。

更关键的是,这种在线更新的额外延迟仅为 0.01 到 0.03 秒,并不带来显著的计算开销。

研究团队

论文第一作者 Ying Wang 是纽约大学数据科学中心 CILVR Lab 博士生,导师为 Mengye Ren 与 Yann LeCun,研究方向聚焦世界模型;共同作者 Oumayma Bounou 是纽约大学博士后研究员,目前与 LeCun 合作研究世界模型与控制。Mengye Ren 与图灵奖获得者 Yann LeCun 共同担任指导作者。

总体而言,AdaJEPA 展示的是一条轻量化的「部署时自我校准」路径:世界模型不必在训练结束后就被冻结,只要在交互中用真实反馈做少量参数更新,即可在面对环境变化时显著提升鲁棒性。

信源