PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。

要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。

因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料」的关键管道。

在 GitHub 上寻找相关技术解决方案时,PaddleOCR 总是备受关注。该项目自 2020 年开源以来,功能持续新增与完善,目前已累计获得超 69000 GitHub Star,成为 OCR 领域当之无愧的王牌项目。

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

近日,DeepSeek 发布了 OCR-2,再次激活了 OCR 领域的讨论。虽然其效果与 PaddleOCR 数月前发布的第一代 PaddleOCR-VL 尚有差距,但业界也期待看到 PaddleOCR 的回应。

于是,就在昨天,百度开源了另一个重磅项目:PaddleOCR-VL-1.5。该模型仅用 0.9B 参数,就在全球权威文档解析评测榜单 OmniDocBench V1.5 中,超越了 Gemini-3-Pro 和 GPT-5.2 模型!

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

此次发布的 PaddleOCR-VL-1.5,精准解决了在「搭建 AI 知识库」时最令人头疼的问题:输入的图片过于「异形」,导致模型无法正确解读。

所谓「异形」,指的是日常随手拍摄的书页、合同或笔记,往往存在扭曲、倾斜或光线不佳等问题。传统 OCR 处理此类图片时,常出现缺字漏字或排版结构混乱的情况,将这些数据喂给大模型,只会产生一堆不可用的乱码。

而 PaddleOCR-VL-1.5 的更新,相当于为模型装上了一双自带“矫正”功能的眼睛。它全球首创了「异形框定位」能力,不再僵硬地假设文档为方正形状,而是能像一把“熨斗”,在逻辑上将弯曲的文档“烫平”。

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

这种文字识别方式,才真正契合实际应用场景。光有理论介绍还不够,下面将通过实际上手测试来验证其效果。

上手实测

为了检验其极限能力,我们避开了高清扫描件,专门挑选了一些“极其刁难”的素材,并与 DeepSeek-OCR-2 进行对比。

PaddleOCR-VL-1.5 可在此免费测试:https://aistudio.baidu.com/paddleocr

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

首先,随手拿起同事桌上的一包进口零食包装进行测试。PaddleOCR-VL-1.5 完美识别了包装上的日文,而 DeepSeek-OCR-2 则输出了一堆数字乱码:

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 PaddleOCR-VL-1.5
PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 DeepSeek-OCR-2

接着,对一本弯曲翻开的书籍进行拍照上传。两者都能识别出书页中的完整语句,但 DeepSeek-OCR-2 仍存在错别字的老问题,PaddleOCR-VL-1.5 的表现则明显更为稳定:

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 PaddleOCR-VL-1.5
PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 DeepSeek-OCR-2

继续增加难度。上传一张清晰度不高的医生诊断书图片。两者的识别结果都出现了错别字,但 PaddleOCR-VL-1.5 识别出的内容更全,而 DeepSeek-OCR-2 模型仅识别出寥寥几行字:

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 PaddleOCR-VL-1.5
PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 DeepSeek-OCR-2

再测试一张光线暗淡、倾斜且包含复杂数学公式的页面。PaddleOCR-VL-1.5 能够准确识别并提取其中的数学公式,排版也精美简洁。而 OCR-2 对于数学公式的 Markdown 渲染效果不佳,看起来像乱码且内容缺失:

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 PaddleOCR-VL-1.5
PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆 DeepSeek-OCR-2

经过以上测试,相信大家对 PaddleOCR-VL-1.5 的「异形框定位」识别能力已有初步判断。

此外,该模型还针对「印章识别」和「生僻字古籍」做了专门优化。下面也对此进行测试。

上传一张包含表格、图片等复杂信息的封面图,PaddleOCR-VL-1.5 能够清晰识别,并对每个模块的内容进行框选:

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

最后,测试一张竖排从右往左阅读的生僻字古籍图片,PaddleOCR-VL-1.5 依然能够轻松识别。这对于古籍数字化和人文学科的研究者而言,无疑是一个利器。

PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

经过前述测试,PaddleOCR-VL-1.5 的表现堪称卓越,仅凭 0.9B 参数就能达到如此精度。OCR 工具正式进入了小参数、高精度的时代,普通用户能够以极低成本,开发各类需要视觉辅助的应用,将 AI 能力引入真实世界。

这意味着,未来无论是偏远地区的文件档案数字化,还是工厂流水线上的实时质检,都不再需要昂贵的服务器。只需一个普通摄像头,搭配 PaddleOCR-VL-1.5,就能让产品立即拥有“火眼金睛”般的文字识别效果。

结语

至此,可以确定其在 OmniDocBench V1.5 全球榜单中超越 GPT-5.2、DeepSeek-OCR-2 等模型,并非仅仅依靠数值优势,而是凭借实实在在的硬实力登顶。

在千亿参数大模型层出不穷的今天,PaddleOCR 团队坚持将参数控制在 0.9B,这意味着:

  • 低成本:无需昂贵的 A100 显卡,甚至普通消费级显卡也能流畅运行。
  • 隐私安全:使得在金融、医疗等敏感行业进行私有化本地部署成为可能。
  • 端侧潜力:未来直接集成到手机或边缘设备中也并非遥不可及。

作为 GitHub 上的常青项目,PaddleOCR 再次证明:解决真实问题的技术,永远不乏热度。

目前,PaddleOCR-VL-1.5 模型已在 HuggingFace 和 GitHub 全面开源。对于正在为 RAG 数据清洗而发愁,或希望为自己应用添加强大视觉识别能力的开发者来说,这次更新绝对值得尝试。

  • GitHub:https://github.com/PaddlePaddle/PaddleOCR
  • 在线体验:https://paddleocr.com
  • HuggingFace 模型下载:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19611

(0)
上一篇 2026年1月30日 下午6:46
下一篇 2026年1月30日 下午9:27

相关推荐

  • MIT博士生退学:投入100亿美元、5万张H100,10年内实现数字人类

    「我决定从麻省理工学院退学,不再攻读博士学位。人工智能的进化速度太快,我们这些血肉之躯已经追不上了。 但或许还有另一条路:我发现数字人类的实现,远比大多数人想象的更近。如果能集结顶尖的人工智能研究人员,投入大约100亿美元、动用5万张H100 GPU,或许在不到10年之内,这个目标就能实现。」 写下这段话的是Isaak Freeman,麻省理工学院的一名博士…

    2天前
    7300
  • IGGT:统一Transformer突破3D感知瓶颈,实现几何重建与实例理解的首次融合

    在人工智能领域,让机器像人类一样自然地理解三维世界的几何结构与语义内容,一直是极具挑战性的前沿课题。传统方法通常将3D重建(底层几何)与空间理解(高层语义)割裂处理,这种分离不仅导致错误在流程中累积,更严重限制了模型在复杂、动态场景中的泛化能力。近年来,一些新方法尝试将3D模型与特定的视觉语言模型(VLM)进行绑定,但这本质上是一种妥协:模型被限制在预设的语…

    2025年10月31日
    41700
  • PartCrafter:结构化3D生成革命,从单图到可编辑部件级网格的端到端突破

    在计算机图形学与人工智能生成内容(AIGC)的交叉领域,从单张二维图像直接生成高质量三维模型一直是学术界和工业界共同追求的目标。然而,传统3D生成模型普遍存在一个根本性局限:它们将三维物体视为不可分割的“黑箱”整体进行处理,生成的模型虽然外观逼真,但内部结构完全融合,用户无法对个别部件(如椅子的腿、汽车的轮子、桌子的抽屉)进行独立编辑、移动、旋转或替换。这种…

    2025年11月27日
    40600
  • 苹果AI修图终上线,iOS 27全面拥抱AI功能

    今年的 iOS 27,将会弥漫着浓厚的 AI 气息。 根据彭博社的报道,苹果公司计划在今年的 WWDC 开发者大会上,推出一套全新的 AI 修图工具,它将集成于 iPhone、iPad 和 Mac 的照片应用中。沉寂了一年的 Apple 智能,将随着 iOS 27 的发布,再次成为焦点。 两年前,苹果曾公开表示不会涉足 AI 修图功能,但在竞争对手的步步紧逼…

    2026年4月29日
    30600
  • 智域基石:从数据编译到具身智能,破解物理世界AI训练难题

    最近一段时间,许多具身智能领域的公司都感受到了紧迫感。 大洋彼岸,Generalist AI 近期公布了一项引发行业关注的进展:其基于约 50 万小时真实世界人类行为数据训练的 GEN-1 模型,在若干任务上的成功率超过 99%。其创始人、前 DeepMind 高级研究科学家 Pete Florence 随后表示:“当数据规模足够大,且团队能够完整掌控基础模…

    2026年4月17日
    41400