风口上的世界模型：是 AI 基建还是又一场泡沫？

2026 年开年，AI 领域的新风口——世界模型迅速从学术概念走向资本与产业中心。World Labs、AMI Labs、极佳视界等公司接连拿下大额融资，估值飙升，「人人都在谈论世界模型，却很少有人能说清它到底是什么」。本文将梳理世界模型的本质、资本涌入的逻辑，以及这条赛道面临的真实挑战。

概念之争：万物皆可世界模型

世界模型并非全新概念，2024 年前后 Sora 被 OpenAI 描述为「世界模拟器」后才进入大众视野。但将像素级视频生成直接等同于世界模型的看法，长期以来并未被业界全盘接受。

当前业内对世界模型的功能层级主要有两种划分方式。斯坦福大学教授李飞飞团队将其分为渲染器、规划器与模拟器三层，其中模拟器被定义为最接近世界模型的本体；智源研究院院长王仲远则按技术路径分为以语言、像素、三维结构和视觉表征为中心的四类。两种视角虽不同，但都指向同一个判断：世界模型的核心不是生成逼真画面，而是对物理世界的建模能力。

按此标尺，目前市场上的玩家大致可分为三类，且都尚未触及模拟器本体：

视频派（Sora、Runway、可灵等）：本质是像素组合的概率分布，画面再逼真，模型也不理解物理规律本身
3D 空间派（World Labs、VAST 等）：构建了几何结构但缺乏动力学规律，知道「杯子在哪儿」，不知道「杯子被推一下会怎样」
仿真基建派（英伟达、Waabi、Wayve、极佳视界等）：依赖程序员预设规则生画面、生数据，缺乏对物理规律的推演与泛化能力

北京灵生科技合伙人王嘉明将其本质概括为：根据当前观测状态预测下一个观测状态。例如机器人倒咖啡，需先预测杯子世界状态的变化，再反向推导所需动作。这种「预测-推导」能力，正是当下具身智能落地的最大短板。

资本逻辑：补上具身与自动驾驶的拼图

世界模型之所以被资本疯抢，在于它能补上具身智能与自动驾驶两大赛道的关键缺口。

具身智能行业高度依赖真机数据采集与仿真合成数据，但前者训练出的多是对特定动作的模仿，后者受限于平台预设规则，在家庭等非标准化场景中容易失灵。世界模型对数据的「包容性」更高——VLA 必须采集特定机器人的特定动作，而世界模型只需关注物体状态如何变化，人穿戴设备即可采集，机器人端水洒了反而是宝贵的失败样本。

自动驾驶领域，极端场景数据采集成本高昂，世界模型可构建高保真虚拟测试场，大幅降低对高风险路测的依赖。北京交通大学计算机学院博士生余萧认为，世界模型相当于给这两大行业补上了「可验证性」的拼图：机器人可以在虚拟世界里摔一万次再走进现实，车企也可以低成本验证极限场景。

技术瓶颈：卡在数据上的「GPT-2 时刻」

多位从业者判断，当前世界模型大致处于大模型发展史中「GPT-2 到 GPT-3 之间」的阶段：概念很热、Demo 很强，但技术路线极度分散、标准混乱，离真正的通用物理引擎还有很长距离。

核心难题集中在三方面：

数据是最大瓶颈：王嘉明透露，行业人工采集均价在两三百元一小时，任务越复杂单价越贵；真实交互需频繁重置场景与校准传感器，公开数据缺乏失败样本；用合成数据填补缺口则陷入「鸡生蛋」循环——生成精准合成数据的前提是已有一个靠谱的世界模型
推理效率与物理认知缺失：庞大参数量直接导致推理延迟居高不下，机器人倒咖啡、叠衣服的响应速度仍远落后于人类；世界模型试图跳过语言层、从感官信号直接推导物理规律，这条「去语言化」路径目前缺乏已被验证的成功路线
评测与落地困难：真实环境中的摩擦、形变、接触度等参数难以测全、测准，且常带有不确定性，难以像大语言模型那样靠基准测试快速迭代

商业化路径：雏形已现，标准答案未出

目前市场上能拿出的产品几乎都还停留在渲染器和仿真层，没有人真正抵达模拟器本体。当下确实有人通过世界模型赚到了钱，但都不是因为「世界模型」本身，而是它周边的几门生意。按付费模式划分，主要有三条路径：

卖「训练场」：给机器人或车企提供虚拟仿真环境，按项目或订阅收费，是与模拟器层最接近的一条路
卖「合成数据」：生成带物理因果标签的数据，但物理保真度尚无法被独立证伪，客户接受度更多依赖私下校验
卖「内容生产」：面向游戏、影视输出可交互 3D 场景，最容易出爆款 Demo，但更接近渲染器层，护城河存疑

王嘉明坦言，整个行业远未跑出标准答案。这轮融资热与十年前的自动驾驶如出一辙：想象空间巨大但尚未规模落地，正是投资人提前布局的时间窗口。随着英伟达、腾讯、阿里等巨头下场，缺乏落地场景与数据闭环的公司将加速出局。

世界模型并非伪概念，其对物理世界的理解与预测是通往更高阶智能绕不开的一环；但同样确定的是，这轮热潮中确实有不少「伪世界模型」。

概念之争：万物皆可世界模型

按此标尺，目前市场上的玩家大致可分为三类，且都尚未触及模拟器本体：

视频派（Sora、Runway、可灵等）：本质是像素组合的概率分布，画面再逼真，模型也不理解物理规律本身

3D 空间派（World Labs、VAST 等）：构建了几何结构但缺乏动力学规律，知道「杯子在哪儿」，不知道「杯子被推一下会怎样」

仿真基建派（英伟达、Waabi、Wayve、极佳视界等）：依赖程序员预设规则生画面、生数据，缺乏对物理规律的推演与泛化能力

资本逻辑：补上具身与自动驾驶的拼图

世界模型之所以被资本疯抢，在于它能补上具身智能与自动驾驶两大赛道的关键缺口。

技术瓶颈：卡在数据上的「GPT-2 时刻」

核心难题集中在三方面：

数据是最大瓶颈：王嘉明透露，行业人工采集均价在两三百元一小时，任务越复杂单价越贵；真实交互需频繁重置场景与校准传感器，公开数据缺乏失败样本；用合成数据填补缺口则陷入「鸡生蛋」循环——生成精准合成数据的前提是已有一个靠谱的世界模型

推理效率与物理认知缺失：庞大参数量直接导致推理延迟居高不下，机器人倒咖啡、叠衣服的响应速度仍远落后于人类；世界模型试图跳过语言层、从感官信号直接推导物理规律，这条「去语言化」路径目前缺乏已被验证的成功路线

评测与落地困难：真实环境中的摩擦、形变、接触度等参数难以测全、测准，且常带有不确定性，难以像大语言模型那样靠基准测试快速迭代

商业化路径：雏形已现，标准答案未出

卖「训练场」：给机器人或车企提供虚拟仿真环境，按项目或订阅收费，是与模拟器层最接近的一条路

卖「合成数据」：生成带物理因果标签的数据，但物理保真度尚无法被独立证伪，客户接受度更多依赖私下校验

卖「内容生产」：面向游戏、影视输出可交互 3D 场景，最容易出爆款 Demo，但更接近渲染器层，护城河存疑

世界模型并非伪概念，其对物理世界的理解与预测是通往更高阶智能绕不开的一环；但同样确定的是，这轮热潮中确实有不少「伪世界模型」。