梳理世界模型的思想源流、LeCun 与李飞飞等学者的不同分类,以及 OpenAI、DeepMind、英伟达与国内大厂的技…
世界模型正成为 AI 产业最热、却也最模糊的概念。有人说它是让 AI 做梦的能力,有人说它是自动驾驶的仿真器,还有人说它是机器人的大脑。李飞飞、Yann LeCun、OpenAI、Google DeepMind、英伟达以及国内阿里、腾讯、华为等大厂各有各的定义。但所有叫法背后都有一个共同的内核:让机器在真正行动之前,先在内部建立一个可推演、可复盘的环境,把真实世界压缩成可以无限生成、无限试错的数据引擎。2026 年,「世界模型」一词在科技报道中出现的频率,已显著超过其定义的清晰度。
世界模型可以理解为机器里的一个「脑内沙盘」。它不只识别画面里有什么,更能预测接下来会发生什么,并在不真正行动的前提下反复试错。对自动驾驶来说,它可以生成暴雨、暴雪、异型障碍的虚拟考卷;对机器人来说,它可以让人形机器人在仿真世界里摔上十万次再出门;对游戏和影视公司来说,它可能是一个可无限探索的平行宇宙。目标都是降低对真实数据的无限依赖。
世界模型的思想比深度学习早了大半个世纪。1943 年,苏格兰心理学家 Kenneth Craik 在《解释的本质》中提出,人类大脑会构建现实的「小规模模型」用于预测外部事件。1980 年代,英国心理学家 Philip Johnson-Laird 进一步把这一思想系统化为「心智模型」概念。
人工智能领域同样早有呼应。1960 年代,Marvin Minsky 在 MIT 提出「框架理论」,试图用结构化知识框架捕捉人类关于世界的常识:进门要先找门把手,餐厅里通常有桌椅,物体受重力会下落。
2018 年,David Ha 与 Jürgen Schmidhuber 在 NeurIPS 发表《Recurrent World Models Facilitate Policy Evolution》,把「世界模型」一词重新带回深度学习主流:用 VAE 把高维画面压缩为低维潜在向量,用 RNN 学习其时间变化,再由控制器在「想象」中训练策略。这篇论文直接启发了后来的 Dreamer 系列。
Yann LeCun 长期批评大语言模型路线,认为仅预测下一个词无法产生真正的智能。他在《A Path Towards Autonomous Machine Intelligence》中提出,智能需要一个可配置的预测世界模型。JEPA(联合嵌入预测架构)是该路线的技术载体,I-JEPA、V-JEPA、LeJEPA 构成了持续演进的体系。最新理论工作甚至证明,在某些条件下,JEPA 学到的表示能与真实物理变量建立线性对应关系。
李飞飞与 World Labs 团队 2026 年 6 月发表文章,依据 POMDP 框架将世界模型分为三类:渲染器(输出像素,典型代表为视频生成模型与 Google Genie 3)、模拟器(输出几何与物理状态,典型代表为 NVIDIA Omniverse 与 World Labs Marble)、规划器(输出行动,典型代表为 VLA 与 World Action Models)。
清华大学 FIB-Lab 2026 年发布综述《Understanding World or Predicting Future》,将世界模型分为「理解世界」和「预测未来」两大类。北京大学联合快手 2026 年 4 月发布 OpenWorldLib,首次尝试给出世界模型的标准化定义,并将其拆为操作员、合成、推理、表示、记忆五个模块,目标让不同团队像拼乐高一样组合组件。
OpenAI 2024 年 2 月发布 Sora 技术报告《Video Generation Models as World Simulators》,直接把视频生成模型定位为世界模拟器。Sora 在大规模视频数据上自发涌现出 3D 一致性、长期一致性、物体持久性等能力,但仍无法准确模拟玻璃破碎等基本物理过程,更像方向性宣言而非成熟定义。
Google DeepMind 2025 年 8 月发布 Genie 3,定位为「首个实时、可交互的逼真世界模型」,运行帧率达 20-24 fps,支持角色控制与长达一分钟的交互记忆,被官方定位为通向 AGI 的关键里程碑。
英伟达 2025 年 1 月发布 Cosmos,定位为「世界基础模型平台」,分为 Nano、Super、Ultra 三档,基于 2000 万小时真实数据训练,已开源并允许商业使用,瞄准机器人、自动驾驶与工业仿真。
国内厂商虽不常单独使用「世界模型」一词,但实际投入显著:阿里推出 Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld,分别指向语言、虚拟与物理世界;腾讯 HY-World 2.0 强调 3D 可编辑世界;蔚来、小鹏、理想更倾向「驾驶世界模型」或「世界行为模型」;华为、百度在公开材料中较少单独使用该词。命名的混乱,恰恰说明这一概念正处在从学术走向产业基础设施的早期阶段。