文档解析

  • PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

    现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。 要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。 因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料…

    3天前
    900
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    7900
  • MonkeyOCR v1.5:多模态文档解析新范式,复杂表格与跨页结构难题的终结者

    2025年6月以来,多模态文档解析领域迎来新一轮研究热潮,该方向逐渐成为多模态理解及大模型数据来源的重要前沿课题。在数字化办公与AI技术深度融合的今天,文档智能解析技术已成为信息抽取、检索增强生成和自动化文档分析的核心基石。然而,现实世界中的文档往往布局复杂、表格嵌套、内含图片公式,甚至跨页分布,这让许多现有的OCR(光学字符识别系统,Optical Cha…

    2025年11月18日
    7600
  • vLLM集成PaddleOCR-VL:轻量化文档解析模型的高效推理新范式

    在人工智能技术快速迭代的浪潮中,模型部署与推理效率已成为制约实际应用落地的关键瓶颈。近日,vLLM项目宣布正式支持PaddleOCR-VL模型,这一举措不仅为文档解析领域带来了新的技术解决方案,更在模型服务化部署层面树立了轻量化与高效化并重的典范。本文将从技术架构、性能优化、部署实践及行业影响四个维度,深入剖析此次集成的核心价值与未来展望。 从技术架构层面看…

    2025年11月5日
    15700