PaddleOCR

  • PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

    现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。 要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。 因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料…

    5天前
    1900
  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    8500