百度开源 Unlimited OCR，一次读完几十页并刷新 OmniDocBench SOTA

百度近日开源了全新的 OCR 模型 Unlimited OCR，主打一次性连续阅读数十页长文档。该模型在 OmniDocBench v1.5 和 v1.6 上分别取得 93.23% 和 93.92% 的综合得分，整体成绩超越此前的 DeepSeek OCR，刷新当前 SOTA。其核心创新点「参考滑动窗口注意力」（Reference Sliding Window Attention，R-SWA）借鉴了人类抄录员的工作方式：图像始终完整可见，但只保留最近若干个输出 Token 作为进度参考，从而使 KV Cache 保持恒定，显存与计算开销不再随文档长度增长。

从逐页拼接走向连续阅读

传统 OCR 系统在处理超长文档时，通常采用「一页一页读、再把结果拼接」的方式。这种 for-loop 方案工程上可行，但每读完一页都要重置上下文，模型难以维持连贯的阅读状态，也无法建立跨页的语义关联。

Unlimited OCR 的设计思路与之相反：保留当前已生成的局部历史 Token 作为进度跟踪，同时始终关注全部视觉参考 Token。这样模型既能稳定感知整张图像，又能像人一样判断「自己读到哪里了」，而更早的内容则自然淡出工作记忆。

参考滑动窗口注意力的关键设计

R-SWA 将注意力计算拆成两部分：

参考 Token：包括全部视觉 Token 和提示词，始终完整保留，作为模型的「桌面参考书」，不参与窗口滑动；
输出 Token：只保留最近 n 个（默认 128 个）已生成 Token，用于追踪当前进度，新的 Token 进入、旧的状态自动移出。

KV Cache 因此被设计成一个固定长度的队列，无论生成几千还是几万个 Token，缓存规模始终恒定。相比全注意力机制的持续膨胀，以及传统滑动窗口注意力将视觉 Token 一并滑出的做法，R-SWA 既保证了图像感知稳定，又控制了显存与计算成本。

长文档场景下的精度与效率

研究团队使用 OmniDocBench v1.5 与 v1.6 评估文档解析能力，并额外构建了覆盖 2 页至 40 页以上的内部测试集考察连续解析能力：

在 OmniDocBench v1.5 上综合得分 93.23%，相比 DeepSeek OCR 提升 6.22%；
在 v1.6 上进一步达到 93.92%，刷新 SOTA；
处理 40 页以上文档时，Distinct-35 指标达 96.90%，编辑距离始终保持在 0.1069 以下；
生成 6000 个 Token 时推理速度（TPS）相比 DeepSeek OCR 提升约 35%，调用延迟基本稳定。

不只是 OCR：长上下文记忆机制的新思路

更值得关注的是 R-SWA 体现出的设计哲学：与其让模型记住一切，不如让它学会像人一样遗忘。论文提出的短期路线包括训练更长上下文版本，将解析能力扩展到 128K；长期则计划构建「预填池（Prefill Pool）」机制，让模型按需调取历史 KV 状态。R-SWA 后续还计划被扩展到语音识别、机器翻译等任务。

从这个角度看，Unlimited OCR 解决的并不只是 OCR 问题，而是当任务变得越来越长时，模型应当如何管理自身记忆这一更基础的问题。

作者背景引关注

技术报告三位核心贡献者中，一位以「YY」署名的作者被标注为技术总监。从行文风格、技术叙事到沿用 DeepEncoder 视觉编码器等线索，业内不少讨论猜测 YY 可能为前 DeepSeek OCR 团队研究员魏浩然。截至目前，该身份尚未得到官方确认。

参考链接：

GitHub：https://github.com/baidu/Unlimited-OCR
Hugging Face：https://huggingface.co/baidu/Unlimited-OCR