CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！ henry 2026-06-27 20:19:42 来源：量子位 VLM- R1之后再次出手！全球首个端侧流式多模态来了！ henry 发自凹非寺量子位 | 公众号 QbitAI 好家伙！这CVPR也就刚过去没几天，会上还在热议的方向，就已经给一家杭州团队跑进了端侧！刚刚， Om AI 发布全球首个面向物理世界的端侧流式多模态模型系列 —— VLX 。 VLX主打真实世界的端侧与具身场景，总共三款模型，三天连发： VLX-Flow：实时流式感知，让视频像水流一样持续输入，模型实时看、实时想、实时更新世界状态。 VLX-Seek：精准定位，从看见走向看清，快速锁定目标。 VLX-Go：行动决策，把感知和定位的结果转化成真实动作——该往哪走、怎么操作，一气呵成。这三款模型连起来，不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。与此同时，其原生端侧设计也让它能够真正跑进手机、无人机、机器人这些端侧设备。而这，也并不是Om AI第一次在VL（视觉语言）领域发力。去年，他们推出了全网爆火的 VLM-R1 。作为全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目，上线12小时获得超过2000颗GitHub Star。 48小时登顶GitHub全球趋势榜，至今已斩获6000+Star。这一次，他们交出的新答卷，是VLX。一条通往物理世界的能力链为了更好地理解VLX这次的技术路线，我们可以把它拆成两个关键词：端侧与流式多模态。咱们先看后者。所谓流式多模态，就是让AI能够在物理世界中持续、实时地感知环境，并最终形成一条完整的能力链：感知（Perception）→ 精准定位（Grounding）→ 行动（Action）。它跟我们此前在语音助手里“听”到的流式多模态不同。语音助手强调的是人与AI的实时交互，而VLX关注的，则是AI在物理世界中持续观察、持续判断，并最终驱动行动，完成从“看图”到“做事”的跨越。这种定位的不同，其实反映的是VLM角色的转变。随着具身智能、空间智能、视频生成等领域快速发展，VLM已经不再只是LLM的一个能力模块，而是在逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。这意味着， VLM不仅需要看图说话，更需要具备持续感知、精准定位和驱动行动的能力，从而为下游任务提供统一、精准的基座能力。一个很直观的信号来自今年CVPR。数据显示，VLM/多模态相关论文占比已经从去年的4.9%增长到10.6%，几乎翻倍，成为近年来增长最快的研究方向之一。而在论文数量快速增长的背后，最值得关注的两个关键词，就是实时感知（Streaming）和定位（Grounding）。（注：Grounding的核…

本条由桃子采集流水线（启发式模式）自动整理，原文见文末信源。