桃子桃子 AI 快讯
返回首页
开源

CVPR 2026最热方向,被一家杭州团队率先跑进了端侧!

CVPR 2026最热方向,被一家杭州团队率先跑进了端侧! henry 2026-06-27 20:…

2026.06.27 · 周六3 分钟阅读评分 72
评分细项加权总分 72
重要性
73
新颖性
64
影响面
70
可信度
75
实质性
90

CVPR 2026最热方向,被一家杭州团队率先跑进了端侧! henry 2026-06-27 20:19:42 来源: 量子位 VLM- R1之后再次出手!全球首个端侧流式多模态来了! henry 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙! 这CVPR也就刚过去没几天,会上还在热议的方向,就已经给一家杭州团队跑进了端侧! 刚刚, Om AI 发布全球首个面向物理世界的 端侧流式多模态模型系列 —— VLX 。 VLX主打真实世界的端侧与具身场景,总共三款模型,三天连发: VLX-Flow:实时流式感知,让视频像水流一样持续输入,模型实时看、实时想、实时更新世界状态。 VLX-Seek:精准定位,从看见走向看清,快速锁定目标。 VLX-Go:行动决策,把感知和定位的结果转化成真实动作——该往哪走、怎么操作,一气呵成。 这三款模型连起来,不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。 与此同时,其原生端侧设计也让它能够真正跑进手机、无人机、机器人这些端侧设备。 而这,也并不是Om AI第一次在VL(视觉语言)领域发力。 去年,他们推出了全网爆火的 VLM-R1 。 作为全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目,上线12小时获得超过2000颗GitHub Star。 48小时登顶GitHub全球趋势榜,至今已斩获6000+Star。 这一次,他们交出的新答卷,是VLX。 一条通往物理世界的能力链 为了更好地理解VLX这次的技术路线,我们可以把它拆成两个关键词: 端侧 与 流式多模态 。 咱们先看后者。 所谓流式多模态,就是让AI能够在物理世界中持续、实时地感知环境,并最终形成一条完整的能力链: 感知(Perception)→ 精准定位(Grounding)→ 行动(Action)。 它跟我们此前在语音助手里“听”到的流式多模态不同。 语音助手强调的是人与AI的实时交互,而VLX关注的,则是AI在物理世界中持续观察、持续判断,并最终驱动行动,完成从“看图”到“做事”的跨越。 这种定位的不同,其实反映的是VLM角色的转变。 随着 具身智能 、 空间智能 、 视频生成 等领域快速发展,VLM已经不再只是LLM的一个能力模块,而是在逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。 这意味着, VLM不仅需要看图说话,更需要具备持续感知、精准定位和驱动行动的能力,从而为下游任务提供统一、精准的基座能力。 一个很直观的信号来自今年CVPR。 数据显示,VLM/多模态相关论文占比已经从去年的4.9%增长到10.6%,几乎翻倍,成为近年来增长最快的研究方向之一。 而在论文数量快速增长的背后,最值得关注的两个关键词,就是 实时感知(Streaming) 和 定位(Grounding) 。 (注:Grounding的核…

本条由桃子采集流水线(启发式模式)自动整理,原文见文末信源。

关键词#DeepSeek
信源