- 鲸林向海

超越谷歌Tesseract，全球OCR开源项目迎来新王

在OCR（光学字符识别）领域，谷歌旗下的Tesseract OCR曾是一座长期屹立的技术丰碑。这款诞生于近四十年前的开源项目，凭借其卓越的性能和广泛的适用性，长期占据GitHub全球OCR项目榜首。

然而，这一局面已被中国开源项目改写。由百度文心大模型衍生的PaddleOCR，以超过73,300个Star的成绩，正式登顶GitHub全球OCR项目榜，终结了Tesseract OCR的长期霸榜历史。这也是中国开源项目在这一基础技术赛道上，首次获得全球Star数量第一。

不仅如此，在Hugging Face平台上，PaddleOCR也长期处于OCR与文档解析领域的头部位置，已成为全球开发者的重要工具。从“跟跑”到“领跑”，这标志着在大模型时代，中国开源项目正以实力参与并重塑全球技术竞争格局。

技术里程碑的更迭：从Tesseract到PaddleOCR

Tesseract OCR的发展历程堪称一部OCR技术简史。它于1985年诞生于惠普公司的研发项目，旨在满足商业文档自动化处理的需求。1994年其核心版本开发完成，并在次年的权威评测中跻身全球顶尖OCR引擎之列。

2005年，惠普将其开源。2006年，谷歌接手并持续维护，推动其完成了从传统算法到深度学习框架的转型与优化，使其保持了长久的生命力。

然而，技术世界没有永恒的王者。2020年，原生基于深度学习框架构建的PaddleOCR正式诞生。2023年后，随着大模型浪潮席卷AI行业，依托文心大模型持续迭代的技术底座，PaddleOCR迎来了能力爆发期。

PaddleOCR与文心大模型形成了一套高效的双向赋能体系：
* PaddleOCR负责“看”：以高精度提取文档中的文字、表格、公式等信息，为上层模型提供结构化“食材”。
* 文心大模型负责“懂”：在多模态理解、逻辑推理等方面快速进化，不仅能消化信息，还能反哺PaddleOCR，提升其对复杂文档逻辑的理解能力。

这种协同效应直接推动了PaddleOCR的快速增长。自2024年起，其在GitHub上的Star数量呈现加速上升态势。

关键突破：轻量化模型与多模态解析

PaddleOCR的领先地位，建立在持续的技术突破之上。其核心进展主要体现在两个方向：

1. 多模态文档解析模型登顶
2025年10月，百度开源了自研多模态文档解析模型PaddleOCR-VL。该模型参数量仅为0.9B，却在全球权威文档解析评测榜单OmniDocBench V1.5上取得了92.6分的综合成绩，超越了体量悬殊的GPT-4o、Gemini-2.5 Pro等通用大模型，以及部分OCR垂直模型，在文本识别、公式识别、表格理解等核心能力上全面刷新了当时的最优水平（SOTA）。

发布后，该模型迅速登顶HuggingFace等多个开源平台的热门榜单。

2026年1月底，百度进一步开源了升级版模型PaddleOCR-VL-1.5。同样在0.9B参数量下，其在OmniDocBench V1.5上的整体精度提升至94.5%，综合性能保持领先。新一代模型还首次实现了“异形框定位”能力，能够精准处理倾斜、弯折、拍照畸变等非规则文档，为金融票据、历史档案数字化等复杂场景提供了解决方案。

2. 轻量化模型的“数据工程”革命
在CVPR 2026上，PaddleOCR团队的研究揭示了另一条技术路径：通过精细化“数据工程”，极小参数模型也能在特定任务上媲美大模型。

其中，PP-OCRv5模型便是典范。其参数量仅5M，却在手写、多语言、自然场景等OCR任务上表现优异，甚至在某些方面超越了千亿参数规模的通用视觉大模型。

PP-OCRv5论文链接: https://arxiv.org/pdf/2603.24373v1

其成功的关键在于摒弃了盲目堆叠模型规模或仅聚焦架构创新的传统思路，转而提出一套以“数据为中心”的系统化优化策略。团队从数据难度、准确性、多样性三个维度量化分析，重构了训练数据策略，发现并利用了“难度甜点区”、特征多样性优先、小模型对噪声鲁棒性强等规律。

实验表明，通过这种精细化的数据治理，PP-OCRv5在内部测试中的加权准确率从上一代的53.0%大幅提升至80.1%，在保证高定位精度、低文本幻觉的同时，计算成本远低于百亿参数模型。这项研究证明，深入挖掘数据策略的潜力，能为轻量化模型打开新的性能天花板。

另一项被收录的研究则聚焦于PaddleOCR-VL模型，旨在进一步解决多模态文档解析中的“计算效率”困境。

PaddleOCR-VL论文链接: https://arxiv.org/pdf/2603.24326

目前，PaddleOCR已支持110多种语言的识别，用户覆盖全球160多个国家和地区，成为具有广泛影响力的开源项目。其发展历程表明，在基础软件领域，持续的技术创新与扎实的工程实践，是赢得全球开发者认可的关键。

高分辨率文档解析一直是视觉语言模型（VLM）的痛点——输入高清文档图像时，视觉标记（Token）数量呈二次方增长，导致算力消耗剧增。然而，文档图像中包含大量空白背景，直接全图处理会造成严重的算力浪费。

PaddleOCR 团队提出了一种巧妙的解决方案：不在一开始就处理整张图像，而是先定位关键区域。

他们设计了一种“由粗到细”（Coarse-to-Fine）的架构：首先使用一个轻量级的有效区域聚焦模块（VRFM）来定位文档中的关键信息区域，然后仅让 0.9B 参数规模的模型处理这些区域。

这种方法显著减少了视觉标记的数量，仅为主要竞品的 1/3 到 1/2，同时实现了更高的精度。如前所述，在 OmniDocBench V1.5 权威榜单上，PaddleOCR-VL 以 92.62 分的综合成绩位列全球第一。

总结来看，PaddleOCR 的超越反映了技术代际更迭的必然趋势。

为何 AI 厂商竞相布局 OCR？

回顾过去半年的 AI 领域动态，可以观察到一个清晰的现象：从科技巨头到创业公司，国内外 OCR（光学字符识别）赛道迎来了集体爆发期。

2025 年 10 月，百度 PaddleOCR-VL、DeepSeek-OCR、Allen AI 的 olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base 等模型几乎同期发布。Hugging Face 的模型趋势榜一度被 OCR 模型占据。

随后，2025 年 11 月，腾讯 HunyuanOCR 发布；12 月，Mistral OCR 3 问世。进入 2026 年，1 月有 LightOnOCR-2、DeepSeek-OCR-2 和百度 PaddleOCR-VL-1.5 接踵而至；2 月，智谱 GLM-OCR 发布；3 月，小红书 FireRed-OCR 加入竞争行列。