现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。
要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。
因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料」的关键管道。
在 GitHub 上寻找相关技术解决方案时,PaddleOCR 总是备受关注。该项目自 2020 年开源以来,功能持续新增与完善,目前已累计获得超 69000 GitHub Star,成为 OCR 领域当之无愧的王牌项目。

近日,DeepSeek 发布了 OCR-2,再次激活了 OCR 领域的讨论。虽然其效果与 PaddleOCR 数月前发布的第一代 PaddleOCR-VL 尚有差距,但业界也期待看到 PaddleOCR 的回应。
于是,就在昨天,百度开源了另一个重磅项目:PaddleOCR-VL-1.5。该模型仅用 0.9B 参数,就在全球权威文档解析评测榜单 OmniDocBench V1.5 中,超越了 Gemini-3-Pro 和 GPT-5.2 模型!

此次发布的 PaddleOCR-VL-1.5,精准解决了在「搭建 AI 知识库」时最令人头疼的问题:输入的图片过于「异形」,导致模型无法正确解读。
所谓「异形」,指的是日常随手拍摄的书页、合同或笔记,往往存在扭曲、倾斜或光线不佳等问题。传统 OCR 处理此类图片时,常出现缺字漏字或排版结构混乱的情况,将这些数据喂给大模型,只会产生一堆不可用的乱码。
而 PaddleOCR-VL-1.5 的更新,相当于为模型装上了一双自带“矫正”功能的眼睛。它全球首创了「异形框定位」能力,不再僵硬地假设文档为方正形状,而是能像一把“熨斗”,在逻辑上将弯曲的文档“烫平”。

这种文字识别方式,才真正契合实际应用场景。光有理论介绍还不够,下面将通过实际上手测试来验证其效果。
上手实测
为了检验其极限能力,我们避开了高清扫描件,专门挑选了一些“极其刁难”的素材,并与 DeepSeek-OCR-2 进行对比。
PaddleOCR-VL-1.5 可在此免费测试:https://aistudio.baidu.com/paddleocr

首先,随手拿起同事桌上的一包进口零食包装进行测试。PaddleOCR-VL-1.5 完美识别了包装上的日文,而 DeepSeek-OCR-2 则输出了一堆数字乱码:
PaddleOCR-VL-1.5
DeepSeek-OCR-2
接着,对一本弯曲翻开的书籍进行拍照上传。两者都能识别出书页中的完整语句,但 DeepSeek-OCR-2 仍存在错别字的老问题,PaddleOCR-VL-1.5 的表现则明显更为稳定:
PaddleOCR-VL-1.5
DeepSeek-OCR-2
继续增加难度。上传一张清晰度不高的医生诊断书图片。两者的识别结果都出现了错别字,但 PaddleOCR-VL-1.5 识别出的内容更全,而 DeepSeek-OCR-2 模型仅识别出寥寥几行字:
PaddleOCR-VL-1.5
DeepSeek-OCR-2
再测试一张光线暗淡、倾斜且包含复杂数学公式的页面。PaddleOCR-VL-1.5 能够准确识别并提取其中的数学公式,排版也精美简洁。而 OCR-2 对于数学公式的 Markdown 渲染效果不佳,看起来像乱码且内容缺失:
PaddleOCR-VL-1.5
DeepSeek-OCR-2
经过以上测试,相信大家对 PaddleOCR-VL-1.5 的「异形框定位」识别能力已有初步判断。
此外,该模型还针对「印章识别」和「生僻字古籍」做了专门优化。下面也对此进行测试。
上传一张包含表格、图片等复杂信息的封面图,PaddleOCR-VL-1.5 能够清晰识别,并对每个模块的内容进行框选:

最后,测试一张竖排从右往左阅读的生僻字古籍图片,PaddleOCR-VL-1.5 依然能够轻松识别。这对于古籍数字化和人文学科的研究者而言,无疑是一个利器。

经过前述测试,PaddleOCR-VL-1.5 的表现堪称卓越,仅凭 0.9B 参数就能达到如此精度。OCR 工具正式进入了小参数、高精度的时代,普通用户能够以极低成本,开发各类需要视觉辅助的应用,将 AI 能力引入真实世界。
这意味着,未来无论是偏远地区的文件档案数字化,还是工厂流水线上的实时质检,都不再需要昂贵的服务器。只需一个普通摄像头,搭配 PaddleOCR-VL-1.5,就能让产品立即拥有“火眼金睛”般的文字识别效果。
结语
至此,可以确定其在 OmniDocBench V1.5 全球榜单中超越 GPT-5.2、DeepSeek-OCR-2 等模型,并非仅仅依靠数值优势,而是凭借实实在在的硬实力登顶。
在千亿参数大模型层出不穷的今天,PaddleOCR 团队坚持将参数控制在 0.9B,这意味着:
- 低成本:无需昂贵的 A100 显卡,甚至普通消费级显卡也能流畅运行。
- 隐私安全:使得在金融、医疗等敏感行业进行私有化本地部署成为可能。
- 端侧潜力:未来直接集成到手机或边缘设备中也并非遥不可及。
作为 GitHub 上的常青项目,PaddleOCR 再次证明:解决真实问题的技术,永远不乏热度。
目前,PaddleOCR-VL-1.5 模型已在 HuggingFace 和 GitHub 全面开源。对于正在为 RAG 数据清洗而发愁,或希望为自己应用添加强大视觉识别能力的开发者来说,这次更新绝对值得尝试。
- GitHub:https://github.com/PaddlePaddle/PaddleOCR
- 在线体验:https://paddleocr.com
- HuggingFace 模型下载:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19611
