桃子桃子 AI 快讯
返回首页
开源

百度开源 Unlimited OCR,一次读完几十页并刷新 OmniDocBench SOTA

百度开源 Unlimited OCR,借鉴人类阅读方式提出参考滑动窗口注意力机制,在 OmniDocBench v1.6…

2026.06.28 · 周日4 分钟阅读评分 75
评分细项加权总分 75
重要性
75
新颖性
76
影响面
68
可信度
78
实质性
82

百度近日开源了全新的 OCR 模型 Unlimited OCR,主打一次性连续阅读数十页长文档。该模型在 OmniDocBench v1.5 和 v1.6 上分别取得 93.23% 和 93.92% 的综合得分,整体成绩超越此前的 DeepSeek OCR,刷新当前 SOTA。其核心创新点「参考滑动窗口注意力」(Reference Sliding Window Attention,R-SWA)借鉴了人类抄录员的工作方式:图像始终完整可见,但只保留最近若干个输出 Token 作为进度参考,从而使 KV Cache 保持恒定,显存与计算开销不再随文档长度增长。

从逐页拼接走向连续阅读

传统 OCR 系统在处理超长文档时,通常采用「一页一页读、再把结果拼接」的方式。这种 for-loop 方案工程上可行,但每读完一页都要重置上下文,模型难以维持连贯的阅读状态,也无法建立跨页的语义关联。

Unlimited OCR 的设计思路与之相反:保留当前已生成的局部历史 Token 作为进度跟踪,同时始终关注全部视觉参考 Token。这样模型既能稳定感知整张图像,又能像人一样判断「自己读到哪里了」,而更早的内容则自然淡出工作记忆。

参考滑动窗口注意力的关键设计

R-SWA 将注意力计算拆成两部分:

  • 参考 Token:包括全部视觉 Token 和提示词,始终完整保留,作为模型的「桌面参考书」,不参与窗口滑动;
  • 输出 Token:只保留最近 n 个(默认 128 个)已生成 Token,用于追踪当前进度,新的 Token 进入、旧的状态自动移出。

KV Cache 因此被设计成一个固定长度的队列,无论生成几千还是几万个 Token,缓存规模始终恒定。相比全注意力机制的持续膨胀,以及传统滑动窗口注意力将视觉 Token 一并滑出的做法,R-SWA 既保证了图像感知稳定,又控制了显存与计算成本。

长文档场景下的精度与效率

研究团队使用 OmniDocBench v1.5 与 v1.6 评估文档解析能力,并额外构建了覆盖 2 页至 40 页以上的内部测试集考察连续解析能力:

  • 在 OmniDocBench v1.5 上综合得分 93.23%,相比 DeepSeek OCR 提升 6.22%;
  • 在 v1.6 上进一步达到 93.92%,刷新 SOTA;
  • 处理 40 页以上文档时,Distinct-35 指标达 96.90%,编辑距离始终保持在 0.1069 以下;
  • 生成 6000 个 Token 时推理速度(TPS)相比 DeepSeek OCR 提升约 35%,调用延迟基本稳定。

不只是 OCR:长上下文记忆机制的新思路

更值得关注的是 R-SWA 体现出的设计哲学:与其让模型记住一切,不如让它学会像人一样遗忘。论文提出的短期路线包括训练更长上下文版本,将解析能力扩展到 128K;长期则计划构建「预填池(Prefill Pool)」机制,让模型按需调取历史 KV 状态。R-SWA 后续还计划被扩展到语音识别、机器翻译等任务。

从这个角度看,Unlimited OCR 解决的并不只是 OCR 问题,而是当任务变得越来越长时,模型应当如何管理自身记忆这一更基础的问题。

作者背景引关注

技术报告三位核心贡献者中,一位以「YY」署名的作者被标注为技术总监。从行文风格、技术叙事到沿用 DeepEncoder 视觉编码器等线索,业内不少讨论猜测 YY 可能为前 DeepSeek OCR 团队研究员魏浩然。截至目前,该身份尚未得到官方确认。

参考链接:

信源