2026 年被业界视为物理 AI 元年,Om AI 联汇发布 VLX 系列端侧视觉模型,主打持续感知、精准定位与实时行动…
2026 年开年,英伟达 CEO 黄仁勋在 CES 主题演讲中 17 次提及「物理 AI」,并断言「物理 AI 的 ChatGPT 时刻已经来了」。这一表态将过去两年间持续升温的产业讨论推向高点——人工智能的下一战场,正从屏幕里的语言与图像生成,延伸至与真实物理世界交互的机器人、自动驾驶、无人机和智能终端。
2026 年上半年,物理 AI 领域的融资密度显著提升。仅一季度,全球物理 AI 融资总额就超过 64 亿美元,其中包括 AMI Labs 10.3 亿美元种子轮、World Labs 10 亿美元融资,以及国内千寻智能三个月内完成四轮共 45 亿元人民币的密集融资。Future Markets 预测,全球物理 AI 市场规模将从 2026 年约 3830 亿美元增长至 2040 年的 3.26 万亿美元;Coatue Management 的估算则更为激进,认为可达 6 万亿美元,较数字 AI 高出约 50%。
在技术路线层面,基础模型层呈现 VLM(视觉-语言模型)、VLA(视觉-语言-动作模型)与世界模型三条路径收敛之势。智源研究院院长王仲远曾归纳世界模型的四类主流路线:
产业层面,三大阵营已经初步成形:英伟达在 GTC 2026 展示了自研 VLA 模型 Alpamayo 及开源的 Isaac GR00T N1.6,小鹏在 CVPR 2026 推出将世界模型嵌入 VLA 架构的 X-Foresight;吉利在 GTC 2026 发布 WAM 世界行为模型,World Labs 持续押注空间智能,谷歌 DeepMind 则于 2025 年 8 月发布通用世界模型 Genie 3;智元机器人、宇树科技与特斯拉 Optimus 则在 VLA 与世界模型融合方向上同步探索。
当行业热衷于讨论 VLA 与世界模型的路线之争时,Om AI 联汇选择了一条更底层的路径。6 月 27 日至 29 日,该公司发布了 VLX-Flow、VLX-Seek、VLX-Go 三款端侧模型,聚焦物理 AI 最基础、最通用的视觉能力。
其研发逻辑与行业普遍做法相反:不是将云端模型蒸馏压缩后移植到端侧,而是先明确端侧硬件的算力天花板,再在边界内做能力最大化的原生架构设计。
在工业巡检、应急管理等场景中,网络断连是常态。一台在厂区飞行的无人机或地铁工地巡逻的机器人,若每次决策都需云端回传,延迟将使任务失效。VLX 系列将决策闭环压缩到设备本地,延迟从秒级降至 0.1 秒以内,这也是大量高危、高动态场景从「技术不可行」走向「商用可落地」的关键。
在部署层面,Om AI 联汇透露 VLX 系列已落地多个场景:机器人侧,云深处、宇树等具身头部企业已完成部署;无人机侧,公安、海事、自然资源、园区、应急、救援等低空场景已商用;安防摄像头侧,已完成百万级摄像头的商业化服务接入。
物理 AI 的技术路线之争远未结束。在「VLA 为主、世界模型为辅」的嵌入路线、「世界模型原生、强化学习驱动」的独立路线,以及「类脑算法+世界模型」的底层重构路线之间,各家企业仍在多路攀岩。
VLX 系列的冲击点不在于某几项算法指标的突破,而在于提出一个判断:物理世界里,智能的度量衡或许不再是参数量的堆叠,而是决策时延的长短与算力利用率的极致。当数以亿计的摄像头、无人机、机器狗、可穿戴设备从「拍摄工具」变成「持续理解物理环境的感知终端」,这一转变的产业价值,可能比人形机器人的演示更具实际意义。