桃子桃子快讯
返回首页
工具

开发者开源 VCCB 基准:测试多模态模型读懂日历截图

Reddit 用户发布 Visual Calendar Comprehension Benchmark,测试多模态大模型…

2026.07.02 · 周四4 分钟阅读

一位本地大模型开发者近日在 Reddit r/LocalLLaMA 社区发布了一套名为 VCCB(Visual Calendar Comprehension Benchmark)的开源基准,用于衡量多模态大语言模型从日历截图(week view)中还原结构化事件的能力。该基准的图像、提示词、评分脚本与所有结果均已开源,目的是揭示当前模型在「视觉理解 + 结构化输出」任务上与人类之间的真实差距。

基准设计思路

VCCB 的任务设定非常具体:向模型展示一张固定的日历周视图截图,要求它提取其中每一个事件的标题、起止时间、时长、重叠、循环规则以及全天/多日跨度等结构化信息。

为贴近真实使用场景,作者在同一周的数据上做了三重变化:

  • 三款桌面客户端:Outlook、HCL Notes、Thunderbird,因渲染机制不同(例如 Notes 和 Thunderbird 强制最小块高度,而 Outlook 用短色条表示短事件),同一信息在视觉上呈现各异。
  • 三种采集方式:干净截图、正面拍摄、约 15° 倾斜拍摄,构成每轮 9 张图像。
  • 自归一化打分:按客户端分别计算「最大可提取目标」,满分 100%,便于跨客户端对比;倾斜图像则用于衡量模型对拍摄变形的鲁棒性。

完整的评分器、答案键、提示词与运行脚本都放在 GitHub 仓库中,任何人都可以复现或本地搭建自己的排行榜。

初步结果(样本极小,需谨慎看待)

作者根据自己的少量运行给出了一个粗略的四档分布:

  • 人类:约 99%(±1%),即便在倾斜拍摄下人眼+大脑仍有明显优势。
  • 前沿托管模型(如 Claude Opus):约 80–85%。
  • 中端模型(如 ChatGPT 免费版):约 75%(±5%)。
  • 本地模型 + Claude Haiku:约 38–58%。

作者特别强调,本地模型与人眼之间存在如此巨大的鸿沟,是促使他发帖分享的原因。不过他本人也坦言「数据点很少」,尤其是他最关心的「量化精度到底损失多少」这个问题,单凭自己的数据无法回答。

方法的可取与局限

VCCB 的方法论有几个值得肯定的细节:

  • 任务场景真实,解决了作者本地 agent 因 API 不可用而只能靠截图导出日历数据的痛点。
  • 评分按客户端归一化,避免了「渲染损失」被误判为模型能力。
  • 全部资产开源,支持社区 PR 或 issue 提交结果,模型与 prompt 都会挂在公开排行榜上。

但局限性同样明显:

  • 样本量极小,作者本人多次警告「take with salt」。
  • 覆盖的客户端仅 3 款、采集角度仅 3 种,不能代表所有日历界面。
  • 未涉及移动端、深色主题、跨语言日历等更多变量。
  • 由于运行方式是逐张隔离测试,作者特意提示不要让 agent 跨图像共享信息,以免污染结果。

社区征集与下一步

作者呼吁本地大模型用户在日常使用的模型与量化方案(如 Q4 vs Q6 vs Q8、不同 GGUF 构建)下运行该基准,并提交结果。即便只跑一两张图像也接受,部分提交同样可用,重点是积累量化精度对视觉任务影响的横向数据。

仓库地址:https://github.com/KevinFleischer/vccbenchmark。对于关注多模态模型实际可用性、尤其是本地部署 VLM 的开发者来说,这是一份低成本参与的实用基准。

信源