模型发布
Om AI联汇发布VLX端侧流式多模态模型系列
Om AI联汇推出VLX系列三款端侧多模态模型,面向持续视频流,最短单路推理延迟0.06秒,覆盖0.6B至10B参数规格…
2026.06.30 · 周二约 2 分钟阅读评分 53
评分细项加权总分 53
- 重要性
- 55
- 新颖性
- 60
- 影响面
- 45
- 可信度
- 50
- 实质性
- 45
Om AI 联汇正式发布面向物理世界的端侧流式多模态模型系列 VLX,提出「流式多模态」架构,主打持续视频流场景下的实时感知与行动闭环。该系列由三款模型协同组成,覆盖从环境感知到机器人行动决策的完整链路。
三款模型分工:感知、定位、行动
VLX 系列拆分为 VLX-Flow、VLX-Seek、VLX-Go 三个子模型,分别承担不同任务:
- VLX-Flow 负责持续感知,采用增量编码与缓存推理机制,新画面可随时吸收,提问即响应;
- VLX-Seek 负责精准定位,将坐标生成转化为区域检索,从候选区域中选出目标位置,而非直接预测坐标;
- VLX-Go 负责行动执行,将视觉理解结果直接转换为短时航点与运动轨迹,用于机器人跟随、避障与导航。
架构思路与核心指标
VLX 系列围绕三个约束条件设计:时间是连续的、环境是动态变化的、终端算力受限。据介绍,模型从架构层面针对端侧具身智能重新构建,而非将云端模型压缩后部署到终端。官方公布的四项关键能力为:
- 快:流式推理,单路延迟最低 0.06 秒;
- 小:参数覆盖 0.6B 至 10B 多档规格;
- 准:细粒度空间定位;
- 行:感知—定位—执行闭环。
行业语境与待验证问题
流式多模态是近年多模态大模型向视频、具身智能场景延伸时出现的方向之一,强调「边看边理解」而非传统的「截帧—离线处理」模式。VLX 的差异化主张在于端侧闭环与亚百毫秒级延迟,但官方稿件中尚未披露独立 benchmark、与主流视频多模态模型的横向对比,以及在复杂真实场景下的稳定性数据,这些仍是后续需要验证的关键指标。
