开发者开源 VCCB 基准：测试多模态模型读懂日历截图

一位本地大模型开发者近日在 Reddit r/LocalLLaMA 社区发布了一套名为 VCCB（Visual Calendar Comprehension Benchmark）的开源基准，用于衡量多模态大语言模型从日历截图（week view）中还原结构化事件的能力。该基准的图像、提示词、评分脚本与所有结果均已开源，目的是揭示当前模型在「视觉理解 + 结构化输出」任务上与人类之间的真实差距。

基准设计思路

VCCB 的任务设定非常具体：向模型展示一张固定的日历周视图截图，要求它提取其中每一个事件的标题、起止时间、时长、重叠、循环规则以及全天/多日跨度等结构化信息。

为贴近真实使用场景，作者在同一周的数据上做了三重变化：

三款桌面客户端：Outlook、HCL Notes、Thunderbird，因渲染机制不同（例如 Notes 和 Thunderbird 强制最小块高度，而 Outlook 用短色条表示短事件），同一信息在视觉上呈现各异。
三种采集方式：干净截图、正面拍摄、约 15° 倾斜拍摄，构成每轮 9 张图像。
自归一化打分：按客户端分别计算「最大可提取目标」，满分 100%，便于跨客户端对比；倾斜图像则用于衡量模型对拍摄变形的鲁棒性。

完整的评分器、答案键、提示词与运行脚本都放在 GitHub 仓库中，任何人都可以复现或本地搭建自己的排行榜。

初步结果（样本极小，需谨慎看待）

作者根据自己的少量运行给出了一个粗略的四档分布：

人类：约 99%（±1%），即便在倾斜拍摄下人眼+大脑仍有明显优势。
前沿托管模型（如 Claude Opus）：约 80–85%。
中端模型（如 ChatGPT 免费版）：约 75%（±5%）。
本地模型 + Claude Haiku：约 38–58%。

作者特别强调，本地模型与人眼之间存在如此巨大的鸿沟，是促使他发帖分享的原因。不过他本人也坦言「数据点很少」，尤其是他最关心的「量化精度到底损失多少」这个问题，单凭自己的数据无法回答。

方法的可取与局限

VCCB 的方法论有几个值得肯定的细节：

任务场景真实，解决了作者本地 agent 因 API 不可用而只能靠截图导出日历数据的痛点。
评分按客户端归一化，避免了「渲染损失」被误判为模型能力。
全部资产开源，支持社区 PR 或 issue 提交结果，模型与 prompt 都会挂在公开排行榜上。

但局限性同样明显：

样本量极小，作者本人多次警告「take with salt」。
覆盖的客户端仅 3 款、采集角度仅 3 种，不能代表所有日历界面。
未涉及移动端、深色主题、跨语言日历等更多变量。
由于运行方式是逐张隔离测试，作者特意提示不要让 agent 跨图像共享信息，以免污染结果。

社区征集与下一步

作者呼吁本地大模型用户在日常使用的模型与量化方案（如 Q4 vs Q6 vs Q8、不同 GGUF 构建）下运行该基准，并提交结果。即便只跑一两张图像也接受，部分提交同样可用，重点是积累量化精度对视觉任务影响的横向数据。

仓库地址：https://github.com/KevinFleischer/vccbenchmark。对于关注多模态模型实际可用性、尤其是本地部署 VLM 的开发者来说，这是一份低成本参与的实用基准。