桃子桃子 AI 快讯
返回首页
模型发布

Om AI联汇发布VLX端侧流式多模态模型系列

Om AI联汇推出VLX系列三款端侧多模态模型,面向持续视频流,最短单路推理延迟0.06秒,覆盖0.6B至10B参数规格…

2026.06.30 · 周二2 分钟阅读评分 53
评分细项加权总分 53
重要性
55
新颖性
60
影响面
45
可信度
50
实质性
45

Om AI 联汇正式发布面向物理世界的端侧流式多模态模型系列 VLX,提出「流式多模态」架构,主打持续视频流场景下的实时感知与行动闭环。该系列由三款模型协同组成,覆盖从环境感知到机器人行动决策的完整链路。

三款模型分工:感知、定位、行动

VLX 系列拆分为 VLX-Flow、VLX-Seek、VLX-Go 三个子模型,分别承担不同任务:

  • VLX-Flow 负责持续感知,采用增量编码与缓存推理机制,新画面可随时吸收,提问即响应;
  • VLX-Seek 负责精准定位,将坐标生成转化为区域检索,从候选区域中选出目标位置,而非直接预测坐标;
  • VLX-Go 负责行动执行,将视觉理解结果直接转换为短时航点与运动轨迹,用于机器人跟随、避障与导航。

架构思路与核心指标

VLX 系列围绕三个约束条件设计:时间是连续的、环境是动态变化的、终端算力受限。据介绍,模型从架构层面针对端侧具身智能重新构建,而非将云端模型压缩后部署到终端。官方公布的四项关键能力为:

  • 快:流式推理,单路延迟最低 0.06 秒;
  • 小:参数覆盖 0.6B 至 10B 多档规格;
  • 准:细粒度空间定位;
  • 行:感知—定位—执行闭环。

行业语境与待验证问题

流式多模态是近年多模态大模型向视频、具身智能场景延伸时出现的方向之一,强调「边看边理解」而非传统的「截帧—离线处理」模式。VLX 的差异化主张在于端侧闭环与亚百毫秒级延迟,但官方稿件中尚未披露独立 benchmark、与主流视频多模态模型的横向对比,以及在复杂真实场景下的稳定性数据,这些仍是后续需要验证的关键指标。

信源