世界模型：从心理学概念到 AI 产业主战场

世界模型正成为 AI 产业最热、却也最模糊的概念。有人说它是让 AI 做梦的能力，有人说它是自动驾驶的仿真器，还有人说它是机器人的大脑。李飞飞、Yann LeCun、OpenAI、Google DeepMind、英伟达以及国内阿里、腾讯、华为等大厂各有各的定义。但所有叫法背后都有一个共同的内核：让机器在真正行动之前，先在内部建立一个可推演、可复盘的环境，把真实世界压缩成可以无限生成、无限试错的数据引擎。2026 年，「世界模型」一词在科技报道中出现的频率，已显著超过其定义的清晰度。

核心思想：在「脑内沙盘」里预演世界

世界模型可以理解为机器里的一个「脑内沙盘」。它不只识别画面里有什么，更能预测接下来会发生什么，并在不真正行动的前提下反复试错。对自动驾驶来说，它可以生成暴雨、暴雪、异型障碍的虚拟考卷；对机器人来说，它可以让人形机器人在仿真世界里摔上十万次再出门；对游戏和影视公司来说，它可能是一个可无限探索的平行宇宙。目标都是降低对真实数据的无限依赖。

思想源头：一位心理学家与几位 AI 先驱

世界模型的思想比深度学习早了大半个世纪。1943 年，苏格兰心理学家 Kenneth Craik 在《解释的本质》中提出，人类大脑会构建现实的「小规模模型」用于预测外部事件。1980 年代，英国心理学家 Philip Johnson-Laird 进一步把这一思想系统化为「心智模型」概念。

人工智能领域同样早有呼应。1960 年代，Marvin Minsky 在 MIT 提出「框架理论」，试图用结构化知识框架捕捉人类关于世界的常识：进门要先找门把手，餐厅里通常有桌椅，物体受重力会下落。

2018 年，David Ha 与 Jürgen Schmidhuber 在 NeurIPS 发表《Recurrent World Models Facilitate Policy Evolution》，把「世界模型」一词重新带回深度学习主流：用 VAE 把高维画面压缩为低维潜在向量，用 RNN 学习其时间变化，再由控制器在「想象」中训练策略。这篇论文直接启发了后来的 Dreamer 系列。

学者视角：LeCun、李飞飞与国内学派

Yann LeCun 长期批评大语言模型路线，认为仅预测下一个词无法产生真正的智能。他在《A Path Towards Autonomous Machine Intelligence》中提出，智能需要一个可配置的预测世界模型。JEPA（联合嵌入预测架构）是该路线的技术载体，I-JEPA、V-JEPA、LeJEPA 构成了持续演进的体系。最新理论工作甚至证明，在某些条件下，JEPA 学到的表示能与真实物理变量建立线性对应关系。

李飞飞与 World Labs 团队 2026 年 6 月发表文章，依据 POMDP 框架将世界模型分为三类：渲染器（输出像素，典型代表为视频生成模型与 Google Genie 3）、模拟器（输出几何与物理状态，典型代表为 NVIDIA Omniverse 与 World Labs Marble）、规划器（输出行动，典型代表为 VLA 与 World Action Models）。

清华大学 FIB-Lab 2026 年发布综述《Understanding World or Predicting Future》，将世界模型分为「理解世界」和「预测未来」两大类。北京大学联合快手 2026 年 4 月发布 OpenWorldLib，首次尝试给出世界模型的标准化定义，并将其拆为操作员、合成、推理、表示、记忆五个模块，目标让不同团队像拼乐高一样组合组件。

大厂路线：Sora、Genie 3、Cosmos 与国内实践

OpenAI 2024 年 2 月发布 Sora 技术报告《Video Generation Models as World Simulators》，直接把视频生成模型定位为世界模拟器。Sora 在大规模视频数据上自发涌现出 3D 一致性、长期一致性、物体持久性等能力，但仍无法准确模拟玻璃破碎等基本物理过程，更像方向性宣言而非成熟定义。

Google DeepMind 2025 年 8 月发布 Genie 3，定位为「首个实时、可交互的逼真世界模型」，运行帧率达 20-24 fps，支持角色控制与长达一分钟的交互记忆，被官方定位为通向 AGI 的关键里程碑。

英伟达 2025 年 1 月发布 Cosmos，定位为「世界基础模型平台」，分为 Nano、Super、Ultra 三档，基于 2000 万小时真实数据训练，已开源并允许商业使用，瞄准机器人、自动驾驶与工业仿真。

国内厂商虽不常单独使用「世界模型」一词，但实际投入显著：阿里推出 Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld，分别指向语言、虚拟与物理世界；腾讯 HY-World 2.0 强调 3D 可编辑世界；蔚来、小鹏、理想更倾向「驾驶世界模型」或「世界行为模型」；华为、百度在公开材料中较少单独使用该词。命名的混乱，恰恰说明这一概念正处在从学术走向产业基础设施的早期阶段。

核心思想：在「脑内沙盘」里预演世界

思想源头：一位心理学家与几位 AI 先驱

学者视角：LeCun、李飞飞与国内学派

大厂路线：Sora、Genie 3、Cosmos 与国内实践