物理 AI 元年：Om AI 联汇押注「端侧原生」视觉模型

2026 年开年，英伟达 CEO 黄仁勋在 CES 主题演讲中 17 次提及「物理 AI」，并断言「物理 AI 的 ChatGPT 时刻已经来了」。这一表态将过去两年间持续升温的产业讨论推向高点——人工智能的下一战场，正从屏幕里的语言与图像生成，延伸至与真实物理世界交互的机器人、自动驾驶、无人机和智能终端。

资本与技术路线加速分化

2026 年上半年，物理 AI 领域的融资密度显著提升。仅一季度，全球物理 AI 融资总额就超过 64 亿美元，其中包括 AMI Labs 10.3 亿美元种子轮、World Labs 10 亿美元融资，以及国内千寻智能三个月内完成四轮共 45 亿元人民币的密集融资。Future Markets 预测，全球物理 AI 市场规模将从 2026 年约 3830 亿美元增长至 2040 年的 3.26 万亿美元；Coatue Management 的估算则更为激进，认为可达 6 万亿美元，较数字 AI 高出约 50%。

在技术路线层面，基础模型层呈现 VLM（视觉-语言模型）、VLA（视觉-语言-动作模型）与世界模型三条路径收敛之势。智源研究院院长王仲远曾归纳世界模型的四类主流路线：

以语言为中心（如 Gemini 3）：感知多模态数据，通过语言思考并描述下一状态；
以像素为中心（如 Sora）：适合视频生成，但缺乏物理因果建模；
以三维结构为中心（如李飞飞 World Labs 的 Marble）：瞄准元宇宙与数字世界仿真；
以视觉表征为中心（如 LeCun 的 V-JEPA 系列）：预测视觉表征的压缩演化。

产业层面，三大阵营已经初步成形：英伟达在 GTC 2026 展示了自研 VLA 模型 Alpamayo 及开源的 Isaac GR00T N1.6，小鹏在 CVPR 2026 推出将世界模型嵌入 VLA 架构的 X-Foresight；吉利在 GTC 2026 发布 WAM 世界行为模型，World Labs 持续押注空间智能，谷歌 DeepMind 则于 2025 年 8 月发布通用世界模型 Genie 3；智元机器人、宇树科技与特斯拉 Optimus 则在 VLA 与世界模型融合方向上同步探索。

VLX 系列：从「看懂」物理世界切入

当行业热衷于讨论 VLA 与世界模型的路线之争时，Om AI 联汇选择了一条更底层的路径。6 月 27 日至 29 日，该公司发布了 VLX-Flow、VLX-Seek、VLX-Go 三款端侧模型，聚焦物理 AI 最基础、最通用的视觉能力。

VLX-Flow（持续感知）：通过 Linear Attention 与「视觉缓存+文本 carryover」双层记忆机制，让视频流像水流一样持续进入模型，AI 持续观察并记忆环境变化，而非「截一帧、问一次、答一次」。
VLX-Seek（精准定位）：将定位范式从「坐标生成」改为「区域指代」，以更小数据量实现更优效果，为机器人和设备提供毫米级空间锚点。
VLX-Go（行动决策）：0.6B 参数规模，输出可执行航点轨迹而非文本建议，通过短时航点预测、离线轨迹学习与在线 RL 优化实现实时响应，专为算力受限的嵌入式芯片设计。

其研发逻辑与行业普遍做法相反：不是将云端模型蒸馏压缩后移植到端侧，而是先明确端侧硬件的算力天花板，再在边界内做能力最大化的原生架构设计。

端侧原生：从秒级到 0.1 秒

在工业巡检、应急管理等场景中，网络断连是常态。一台在厂区飞行的无人机或地铁工地巡逻的机器人，若每次决策都需云端回传，延迟将使任务失效。VLX 系列将决策闭环压缩到设备本地，延迟从秒级降至 0.1 秒以内，这也是大量高危、高动态场景从「技术不可行」走向「商用可落地」的关键。

在部署层面，Om AI 联汇透露 VLX 系列已落地多个场景：机器人侧，云深处、宇树等具身头部企业已完成部署；无人机侧，公安、海事、自然资源、园区、应急、救援等低空场景已商用；安防摄像头侧，已完成百万级摄像头的商业化服务接入。

物理 AI 的衡量标尺

物理 AI 的技术路线之争远未结束。在「VLA 为主、世界模型为辅」的嵌入路线、「世界模型原生、强化学习驱动」的独立路线，以及「类脑算法+世界模型」的底层重构路线之间，各家企业仍在多路攀岩。

VLX 系列的冲击点不在于某几项算法指标的突破，而在于提出一个判断：物理世界里，智能的度量衡或许不再是参数量的堆叠，而是决策时延的长短与算力利用率的极致。当数以亿计的摄像头、无人机、机器狗、可穿戴设备从「拍摄工具」变成「持续理解物理环境的感知终端」，这一转变的产业价值，可能比人形机器人的演示更具实际意义。

资本与技术路线加速分化

以语言为中心（如 Gemini 3）：感知多模态数据，通过语言思考并描述下一状态；

以像素为中心（如 Sora）：适合视频生成，但缺乏物理因果建模；

以三维结构为中心（如李飞飞 World Labs 的 Marble）：瞄准元宇宙与数字世界仿真；

以视觉表征为中心（如 LeCun 的 V-JEPA 系列）：预测视觉表征的压缩演化。

VLX 系列：从「看懂」物理世界切入

VLX-Flow（持续感知）：通过 Linear Attention 与「视觉缓存+文本 carryover」双层记忆机制，让视频流像水流一样持续进入模型，AI 持续观察并记忆环境变化，而非「截一帧、问一次、答一次」。

VLX-Seek（精准定位）：将定位范式从「坐标生成」改为「区域指代」，以更小数据量实现更优效果，为机器人和设备提供毫米级空间锚点。

VLX-Go（行动决策）：0.6B 参数规模，输出可执行航点轨迹而非文本建议，通过短时航点预测、离线轨迹学习与在线 RL 优化实现实时响应，专为算力受限的嵌入式芯片设计。

端侧原生：从秒级到 0.1 秒

物理 AI 的衡量标尺