超越谷歌Tesseract,全球OCR开源项目迎来新王
在OCR(光学字符识别)领域,谷歌旗下的Tesseract OCR曾是一座长期屹立的技术丰碑。这款诞生于近四十年前的开源项目,凭借其卓越的性能和广泛的适用性,长期占据GitHub全球OCR项目榜首。
然而,这一局面已被中国开源项目改写。由百度文心大模型衍生的PaddleOCR,以超过73,300个Star的成绩,正式登顶GitHub全球OCR项目榜,终结了Tesseract OCR的长期霸榜历史。这也是中国开源项目在这一基础技术赛道上,首次获得全球Star数量第一。

不仅如此,在Hugging Face平台上,PaddleOCR也长期处于OCR与文档解析领域的头部位置,已成为全球开发者的重要工具。从“跟跑”到“领跑”,这标志着在大模型时代,中国开源项目正以实力参与并重塑全球技术竞争格局。

技术里程碑的更迭:从Tesseract到PaddleOCR
Tesseract OCR的发展历程堪称一部OCR技术简史。它于1985年诞生于惠普公司的研发项目,旨在满足商业文档自动化处理的需求。1994年其核心版本开发完成,并在次年的权威评测中跻身全球顶尖OCR引擎之列。
2005年,惠普将其开源。2006年,谷歌接手并持续维护,推动其完成了从传统算法到深度学习框架的转型与优化,使其保持了长久的生命力。
然而,技术世界没有永恒的王者。2020年,原生基于深度学习框架构建的PaddleOCR正式诞生。2023年后,随着大模型浪潮席卷AI行业,依托文心大模型持续迭代的技术底座,PaddleOCR迎来了能力爆发期。
PaddleOCR与文心大模型形成了一套高效的双向赋能体系:
* PaddleOCR负责“看”:以高精度提取文档中的文字、表格、公式等信息,为上层模型提供结构化“食材”。
* 文心大模型负责“懂”:在多模态理解、逻辑推理等方面快速进化,不仅能消化信息,还能反哺PaddleOCR,提升其对复杂文档逻辑的理解能力。
这种协同效应直接推动了PaddleOCR的快速增长。自2024年起,其在GitHub上的Star数量呈现加速上升态势。
关键突破:轻量化模型与多模态解析
PaddleOCR的领先地位,建立在持续的技术突破之上。其核心进展主要体现在两个方向:
1. 多模态文档解析模型登顶
2025年10月,百度开源了自研多模态文档解析模型PaddleOCR-VL。该模型参数量仅为0.9B,却在全球权威文档解析评测榜单OmniDocBench V1.5上取得了92.6分的综合成绩,超越了体量悬殊的GPT-4o、Gemini-2.5 Pro等通用大模型,以及部分OCR垂直模型,在文本识别、公式识别、表格理解等核心能力上全面刷新了当时的最优水平(SOTA)。


发布后,该模型迅速登顶HuggingFace等多个开源平台的热门榜单。

2026年1月底,百度进一步开源了升级版模型PaddleOCR-VL-1.5。同样在0.9B参数量下,其在OmniDocBench V1.5上的整体精度提升至94.5%,综合性能保持领先。新一代模型还首次实现了“异形框定位”能力,能够精准处理倾斜、弯折、拍照畸变等非规则文档,为金融票据、历史档案数字化等复杂场景提供了解决方案。
2. 轻量化模型的“数据工程”革命
在CVPR 2026上,PaddleOCR团队的研究揭示了另一条技术路径:通过精细化“数据工程”,极小参数模型也能在特定任务上媲美大模型。
其中,PP-OCRv5模型便是典范。其参数量仅5M,却在手写、多语言、自然场景等OCR任务上表现优异,甚至在某些方面超越了千亿参数规模的通用视觉大模型。

PP-OCRv5论文链接: https://arxiv.org/pdf/2603.24373v1

其成功的关键在于摒弃了盲目堆叠模型规模或仅聚焦架构创新的传统思路,转而提出一套以“数据为中心”的系统化优化策略。团队从数据难度、准确性、多样性三个维度量化分析,重构了训练数据策略,发现并利用了“难度甜点区”、特征多样性优先、小模型对噪声鲁棒性强等规律。

实验表明,通过这种精细化的数据治理,PP-OCRv5在内部测试中的加权准确率从上一代的53.0%大幅提升至80.1%,在保证高定位精度、低文本幻觉的同时,计算成本远低于百亿参数模型。这项研究证明,深入挖掘数据策略的潜力,能为轻量化模型打开新的性能天花板。
另一项被收录的研究则聚焦于PaddleOCR-VL模型,旨在进一步解决多模态文档解析中的“计算效率”困境。

PaddleOCR-VL论文链接: https://arxiv.org/pdf/2603.24326
目前,PaddleOCR已支持110多种语言的识别,用户覆盖全球160多个国家和地区,成为具有广泛影响力的开源项目。其发展历程表明,在基础软件领域,持续的技术创新与扎实的工程实践,是赢得全球开发者认可的关键。
高分辨率文档解析一直是视觉语言模型(VLM)的痛点——输入高清文档图像时,视觉标记(Token)数量呈二次方增长,导致算力消耗剧增。然而,文档图像中包含大量空白背景,直接全图处理会造成严重的算力浪费。
PaddleOCR 团队提出了一种巧妙的解决方案:不在一开始就处理整张图像,而是先定位关键区域。
他们设计了一种“由粗到细”(Coarse-to-Fine)的架构:首先使用一个轻量级的有效区域聚焦模块(VRFM)来定位文档中的关键信息区域,然后仅让 0.9B 参数规模的模型处理这些区域。
这种方法显著减少了视觉标记的数量,仅为主要竞品的 1/3 到 1/2,同时实现了更高的精度。如前所述,在 OmniDocBench V1.5 权威榜单上,PaddleOCR-VL 以 92.62 分的综合成绩位列全球第一。

总结来看,PaddleOCR 的超越反映了技术代际更迭的必然趋势。
为何 AI 厂商竞相布局 OCR?
回顾过去半年的 AI 领域动态,可以观察到一个清晰的现象:从科技巨头到创业公司,国内外 OCR(光学字符识别)赛道迎来了集体爆发期。
2025 年 10 月,百度 PaddleOCR-VL、DeepSeek-OCR、Allen AI 的 olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base 等模型几乎同期发布。Hugging Face 的模型趋势榜一度被 OCR 模型占据。
随后,2025 年 11 月,腾讯 HunyuanOCR 发布;12 月,Mistral OCR 3 问世。进入 2026 年,1 月有 LightOnOCR-2、DeepSeek-OCR-2 和百度 PaddleOCR-VL-1.5 接踵而至;2 月,智谱 GLM-OCR 发布;3 月,小红书 FireRed-OCR 加入竞争行列。

竞争如此激烈的原因,核心在于两个字:数据。
互联网上公开的高质量文本数据即将消耗殆尽,模型训练面临数据短缺。行业普遍认为,大量有价值的信息仍沉淀于文档、书籍、合同、表格、扫描件等离线载体中。OCR 技术正是打开这座信息宝库的钥匙。
这些海量的非结构化信息无法直接被大模型理解和利用,必须通过 OCR 将图像中的文字、版面结构、表格、公式等元素转化为机器可处理的电子化文本。
因此,OCR 的角色正在被重新定义:它已从早期依赖手工规则的扫描工具,演进为基于特征工程和深度学习的字符识别技术,如今则进入了与 Transformer 架构和智能体(Agent)深度融合的新阶段。它早已超越了“办公室文档提取器”的初始定位。
现在,OCR 被视为大模型数据生态的基座,是智能体理解真实世界的“眼睛”,也是大模型持续进化的关键“钥匙”。

就连启蒙了全球千万学习者的 AI 专家吴恩达,在年初推出的新课程也聚焦于 OCR,主题正是“智能体文档提取”(Agent Doc Extraction),旨在探讨如何为 OCR 赋予智能体能力。
当各大模型在参数规模上日趋接近时,竞争的关键反而回归到了最底层的数据获取与处理能力。谁拥有更强大的 OCR 能力,谁就掌握了现实世界的信息入口,从而能为自己的大模型提供持续、高质量的数据养料。
PaddleOCR 的登顶,正是这场角色转换中最具标志性的事件之一。
更值得关注的是,这场竞争才刚刚开始。未来的 OCR 技术竞争将更加深入和专业化。可能的发展方向包括:一是场景化,不再追求通用全能,而是深耕金融票据、医疗档案、教育试卷等垂直领域;二是端云协同,让轻量模型在手机、扫描仪等设备端进行快速本地识别,再通过云端进行精准优化,兼顾效率与隐私。
更大的想象空间在于 OCR 与多模态大模型、智能体进行更深度的融合,未来或许会出现真正的“全能信息处理助手”。
PaddleOCR 的领先地位,为中国厂商在 OCR 赛道确立了优势。其背后折射出的是中国开源生态整体实力和全球影响力的快速提升。从底层基础设施到前沿技术突破,中国开源正在越来越多的领域展现出世界级水准。OCR,只是其中的一块拼图。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28006


