PaddleOCR-VL-1.5：0.9B参数超越GPT-5.2，异形文档识别新标杆

现阶段，互联网上的公开文本数据已被大模型消耗殆尽，高质量文本数据趋于枯竭，AI 的发展面临瓶颈。

要进一步迭代优化，就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识，却因物理形态的阻隔，难以被 AI 有效利用。

因此，未来的 OCR 文字识别技术，或将成为向 AI 输送高质量「数据燃料」的关键管道。

在 GitHub 上寻找相关技术解决方案时，PaddleOCR 总是备受关注。该项目自 2020 年开源以来，功能持续新增与完善，目前已累计获得超 69000 GitHub Star，成为 OCR 领域当之无愧的王牌项目。

近日，DeepSeek 发布了 OCR-2，再次激活了 OCR 领域的讨论。虽然其效果与 PaddleOCR 数月前发布的第一代 PaddleOCR-VL 尚有差距，但业界也期待看到 PaddleOCR 的回应。

于是，就在昨天，百度开源了另一个重磅项目：PaddleOCR-VL-1.5。该模型仅用 0.9B 参数，就在全球权威文档解析评测榜单 OmniDocBench V1.5 中，超越了 Gemini-3-Pro 和 GPT-5.2 模型！

此次发布的 PaddleOCR-VL-1.5，精准解决了在「搭建 AI 知识库」时最令人头疼的问题：输入的图片过于「异形」，导致模型无法正确解读。

所谓「异形」，指的是日常随手拍摄的书页、合同或笔记，往往存在扭曲、倾斜或光线不佳等问题。传统 OCR 处理此类图片时，常出现缺字漏字或排版结构混乱的情况，将这些数据喂给大模型，只会产生一堆不可用的乱码。

而 PaddleOCR-VL-1.5 的更新，相当于为模型装上了一双自带“矫正”功能的眼睛。它全球首创了「异形框定位」能力，不再僵硬地假设文档为方正形状，而是能像一把“熨斗”，在逻辑上将弯曲的文档“烫平”。

这种文字识别方式，才真正契合实际应用场景。光有理论介绍还不够，下面将通过实际上手测试来验证其效果。

为了检验其极限能力，我们避开了高清扫描件，专门挑选了一些“极其刁难”的素材，并与 DeepSeek-OCR-2 进行对比。

PaddleOCR-VL-1.5 可在此免费测试：https://aistudio.baidu.com/paddleocr

首先，随手拿起同事桌上的一包进口零食包装进行测试。PaddleOCR-VL-1.5 完美识别了包装上的日文，而 DeepSeek-OCR-2 则输出了一堆数字乱码：

PaddleOCR-VL-1.5
DeepSeek-OCR-2

接着，对一本弯曲翻开的书籍进行拍照上传。两者都能识别出书页中的完整语句，但 DeepSeek-OCR-2 仍存在错别字的老问题，PaddleOCR-VL-1.5 的表现则明显更为稳定：

PaddleOCR-VL-1.5
DeepSeek-OCR-2

继续增加难度。上传一张清晰度不高的医生诊断书图片。两者的识别结果都出现了错别字，但 PaddleOCR-VL-1.5 识别出的内容更全，而 DeepSeek-OCR-2 模型仅识别出寥寥几行字：

PaddleOCR-VL-1.5
DeepSeek-OCR-2

再测试一张光线暗淡、倾斜且包含复杂数学公式的页面。PaddleOCR-VL-1.5 能够准确识别并提取其中的数学公式，排版也精美简洁。而 OCR-2 对于数学公式的 Markdown 渲染效果不佳，看起来像乱码且内容缺失：

PaddleOCR-VL-1.5
DeepSeek-OCR-2

经过以上测试，相信大家对 PaddleOCR-VL-1.5 的「异形框定位」识别能力已有初步判断。

此外，该模型还针对「印章识别」和「生僻字古籍」做了专门优化。下面也对此进行测试。

上传一张包含表格、图片等复杂信息的封面图，PaddleOCR-VL-1.5 能够清晰识别，并对每个模块的内容进行框选：

最后，测试一张竖排从右往左阅读的生僻字古籍图片，PaddleOCR-VL-1.5 依然能够轻松识别。这对于古籍数字化和人文学科的研究者而言，无疑是一个利器。

经过前述测试，PaddleOCR-VL-1.5 的表现堪称卓越，仅凭 0.9B 参数就能达到如此精度。OCR 工具正式进入了小参数、高精度的时代，普通用户能够以极低成本，开发各类需要视觉辅助的应用，将 AI 能力引入真实世界。

这意味着，未来无论是偏远地区的文件档案数字化，还是工厂流水线上的实时质检，都不再需要昂贵的服务器。只需一个普通摄像头，搭配 PaddleOCR-VL-1.5，就能让产品立即拥有“火眼金睛”般的文字识别效果。

至此，可以确定其在 OmniDocBench V1.5 全球榜单中超越 GPT-5.2、DeepSeek-OCR-2 等模型，并非仅仅依靠数值优势，而是凭借实实在在的硬实力登顶。

在千亿参数大模型层出不穷的今天，PaddleOCR 团队坚持将参数控制在 0.9B，这意味着：

作为 GitHub 上的常青项目，PaddleOCR 再次证明：解决真实问题的技术，永远不乏热度。

目前，PaddleOCR-VL-1.5 模型已在 HuggingFace 和 GitHub 全面开源。对于正在为 RAG 数据清洗而发愁，或希望为自己应用添加强大视觉识别能力的开发者来说，这次更新绝对值得尝试。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/19611