桃子桃子 AI 快讯
返回首页
研究论文8 小时快讯 · 2026.06.25 12:00

VLM 视觉搜索行为与人类类比研究

用推理令牌数替代反应时间,研究 VLM 在经典视觉搜索任务中的表现

2026.06.25 · 周四1 分钟阅读评分 85

研究方法

该研究将经典视觉搜索范式(特征 vs 联合搜索、空间配置搜索、计数、倾斜/垂直不对称)适配到 VLM 中,利用模型每次试验的推理令牌数作为搜索努力的指标,与人类基准数据对比。

主要发现

初步结果表明,VLM 在部分任务中表现出与人类相似的行为模式(如特征搜索的并行性与联合搜索的序列性),但也存在显著差异,尤其是在需要空间推理的任务中。

意义

为理解 VLM 的视觉注意机制提供了新的行为学视角,提示推理令牌可能成为分析模型“思考深度”的有效工具。

信源