Om AI联汇发布VLX端侧流式多模态模型系列

Om AI 联汇正式发布面向物理世界的端侧流式多模态模型系列 VLX，提出「流式多模态」架构，主打持续视频流场景下的实时感知与行动闭环。该系列由三款模型协同组成，覆盖从环境感知到机器人行动决策的完整链路。

三款模型分工：感知、定位、行动

VLX 系列拆分为 VLX-Flow、VLX-Seek、VLX-Go 三个子模型，分别承担不同任务：

VLX-Flow 负责持续感知，采用增量编码与缓存推理机制，新画面可随时吸收，提问即响应；
VLX-Seek 负责精准定位，将坐标生成转化为区域检索，从候选区域中选出目标位置，而非直接预测坐标；
VLX-Go 负责行动执行，将视觉理解结果直接转换为短时航点与运动轨迹，用于机器人跟随、避障与导航。

架构思路与核心指标

VLX 系列围绕三个约束条件设计：时间是连续的、环境是动态变化的、终端算力受限。据介绍，模型从架构层面针对端侧具身智能重新构建，而非将云端模型压缩后部署到终端。官方公布的四项关键能力为：

快：流式推理，单路延迟最低 0.06 秒；
小：参数覆盖 0.6B 至 10B 多档规格；
准：细粒度空间定位；
行：感知—定位—执行闭环。

行业语境与待验证问题

流式多模态是近年多模态大模型向视频、具身智能场景延伸时出现的方向之一，强调「边看边理解」而非传统的「截帧—离线处理」模式。VLX 的差异化主张在于端侧闭环与亚百毫秒级延迟，但官方稿件中尚未披露独立 benchmark、与主流视频多模态模型的横向对比，以及在复杂真实场景下的稳定性数据，这些仍是后续需要验证的关键指标。