别再一页一页翻了,Baidu Unlimited-OCR 正把 OCR 带进“整本读取”时代
2026/6/28 19:19:46 网站建设 项目流程

如果你对OCR的印象还停留在“拍一页,识别一页;翻一页,再来一页”,Unlimited-OCR的出现,会让这条赛道的重点发生变化。它真正吸引人的地方,不是把单页识别再卷高一点,而是把多页长文档的一次性解析推到更接近“连续阅读”的层面。

过去的 OCR 工具常常像流水线:先切页、再识别、再拼接,遇到长 PDF、教材、研报、论文、表格混排材料时,后处理成本很快就会冒出来。Unlimited-OCR 想解决的正是这个痛点:让模型一次看完整份材料,并尽量从第一页稳定读到最后一页。

聚一口气读几十页,告别单页孤岛

Unlimited-OCR 的核心是One-shot Long-horizon Parsing,也就是一次性长程解析。它不再把一份文档天然拆成很多彼此孤立的小任务,而是希望像人读材料一样,保持连续状态,把多页内容放进同一次处理流程里。

这类能力对真实场景非常关键。单页 OCR 做得再好,遇到几十页报告时仍然会被页间顺序、上下文衔接、表格跨页、图片说明和段落连续性拖住。Unlimited-OCR 把“整份文档能不能稳定读完”放到模型能力中心,使 OCR 从“识别工具”更接近“文档入口”

Unlimited-OCR 整体架构与类人工作记忆示意

模拟人脑工作记忆,长文处理不卡顿

Unlimited-OCR 的设计灵感很直观:人抄书时不会反复回看自己已经写过的全部内容,而是始终盯着原文,同时保留刚刚写下的一小段上下文。远处内容逐渐淡出,近处信息保持清晰,这种“工作记忆”让长时间转写不会越来越沉重。

模型中的 R-SWA就是在模拟这种节奏。它让生成中的每个token都能看到完整参考内容,同时只关注最近一段输出上下文。这样做的好处是,文档越长,系统不必背着全部历史输出继续前进,KV cache 不会随着生成长度无限膨胀,速度和显存压力也更容易被控制住。

它不是更会死记硬背,而是更会保持方向感。对于长文档OCR来说,这一点比单纯堆上下文更重要。

R-SWA 与普通注意力的对比示意

高精度交付,所见即所得

长文档能力如果只停留在“能跑很长”,并不能真正说服用户。Unlimited-OCR更值得关注的地方,是它在文档解析指标上同样给出了强结果:在OmniDocBench v1.5上,整体分数达到93.23,相比DeepSeek-OCR基线提升6.22;在 v1.6 上达到93.92,继续保持第一梯队表现。

这意味着它不是牺牲识别质量换取长输出,而是在文本、公式、表格结构、阅读顺序等文档关键环节上同步推进。对内容团队、知识库团队和企业文档场景来说,这种“交付感”比单一指标更重要。

  • 长篇 PDF、白皮书、研报、招股书等连续文档
  • 论文、教材、讲义、试卷等图文混排资料
  • 需要批量转 Markdown、纯文本或知识库素材的整理链路
  • 需要保留阅读顺序、表格结构和公式信息的归档场景

OmniDocBench v1.5/v1.6结果对比表

从“识字”到“读资料”,重塑工作流

Unlimited-OCR 的想象空间,不只在 OCR 本身。它是让模型在长程解析任务中保持稳定记忆、持续输出和较低资源压力。这种能力未来也可能迁移到语音转写、长文本翻译等需要“参考内容 + 连续输出”的任务里。

对实际工作流来说,OCR 过去常被当成第一步小工具:把图片里的字拿出来,任务就结束了。但现在,OCR 更像一个入口,它把纸面世界、扫描件和长 PDF 拉进可搜索、可编辑、可总结、可入库的数字链路。

  • 内容生产:旧资料、长报告、PDF 文章可以更快进入二次编辑流程
  • 知识库建设:扫描件和长文档更容易沉淀为可检索素材
  • 企业文档:制度、合同、手册、档案的电子化成本有机会下降
  • 教育科研:教材、论文、试卷、讲义的整理效率会更接近批量化处理

当然,“Unlimited”并不等于在有限上下文下真正无限。它更准确的意义,是把 OCR 从短任务推进到长程任务,让模型在几十页级别的文档里仍然尽量保持节奏。过去大家比的是“能不能识别”,现在开始比的是“能不能连续、稳定、像人一样读完整份资料”。

解码时延曲线

社区地址

OpenCSG社区:
https://opencsg.com/models/baidu/Unlimited-OCR

Hugging Face社区:

https://huggingface.co/baidu/Unlimited-OCR

关于OpenCSG

OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询