World Labs、AMI Labs、极佳视界接连大额融资引爆赛道,但概念定义模糊、数据瓶颈难解,商业化路径仍处探索期…
2026 年开年,AI 领域的新风口——世界模型迅速从学术概念走向资本与产业中心。World Labs、AMI Labs、极佳视界等公司接连拿下大额融资,估值飙升,「人人都在谈论世界模型,却很少有人能说清它到底是什么」。本文将梳理世界模型的本质、资本涌入的逻辑,以及这条赛道面临的真实挑战。
世界模型并非全新概念,2024 年前后 Sora 被 OpenAI 描述为「世界模拟器」后才进入大众视野。但将像素级视频生成直接等同于世界模型的看法,长期以来并未被业界全盘接受。
当前业内对世界模型的功能层级主要有两种划分方式。斯坦福大学教授李飞飞团队将其分为渲染器、规划器与模拟器三层,其中模拟器被定义为最接近世界模型的本体;智源研究院院长王仲远则按技术路径分为以语言、像素、三维结构和视觉表征为中心的四类。两种视角虽不同,但都指向同一个判断:世界模型的核心不是生成逼真画面,而是对物理世界的建模能力。
按此标尺,目前市场上的玩家大致可分为三类,且都尚未触及模拟器本体:
北京灵生科技合伙人王嘉明将其本质概括为:根据当前观测状态预测下一个观测状态。例如机器人倒咖啡,需先预测杯子世界状态的变化,再反向推导所需动作。这种「预测-推导」能力,正是当下具身智能落地的最大短板。
世界模型之所以被资本疯抢,在于它能补上具身智能与自动驾驶两大赛道的关键缺口。
具身智能行业高度依赖真机数据采集与仿真合成数据,但前者训练出的多是对特定动作的模仿,后者受限于平台预设规则,在家庭等非标准化场景中容易失灵。世界模型对数据的「包容性」更高——VLA 必须采集特定机器人的特定动作,而世界模型只需关注物体状态如何变化,人穿戴设备即可采集,机器人端水洒了反而是宝贵的失败样本。
自动驾驶领域,极端场景数据采集成本高昂,世界模型可构建高保真虚拟测试场,大幅降低对高风险路测的依赖。北京交通大学计算机学院博士生余萧认为,世界模型相当于给这两大行业补上了「可验证性」的拼图:机器人可以在虚拟世界里摔一万次再走进现实,车企也可以低成本验证极限场景。
多位从业者判断,当前世界模型大致处于大模型发展史中「GPT-2 到 GPT-3 之间」的阶段:概念很热、Demo 很强,但技术路线极度分散、标准混乱,离真正的通用物理引擎还有很长距离。
核心难题集中在三方面:
目前市场上能拿出的产品几乎都还停留在渲染器和仿真层,没有人真正抵达模拟器本体。当下确实有人通过世界模型赚到了钱,但都不是因为「世界模型」本身,而是它周边的几门生意。按付费模式划分,主要有三条路径:
王嘉明坦言,整个行业远未跑出标准答案。这轮融资热与十年前的自动驾驶如出一辙:想象空间巨大但尚未规模落地,正是投资人提前布局的时间窗口。随着英伟达、腾讯、阿里等巨头下场,缺乏落地场景与数据闭环的公司将加速出局。
世界模型并非伪概念,其对物理世界的理解与预测是通往更高阶智能绕不开的一环;但同样确定的是,这轮热潮中确实有不少「伪世界模型」。