OCR - 鲸林向海

智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

GLM-OCR 模型评测：0.9B 参数下的文本识别与表格解析实战 OCR（光学字符识别）技术正持续演进。近期，智谱 AI 开源了其轻量级模型「GLM-OCR」，尽管参数量仅为 0.9B，但据称在 OmniDocBench V1.5 等基准测试中表现不俗，尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。官方数据显示，该模型在多类文档的识别任…

2026年2月11日

1.1K000

AI产业动态

PaddleOCR-VL-1.5：0.9B参数超越GPT-5.2，异形文档识别新标杆

现阶段，互联网上的公开文本数据已被大模型消耗殆尽，高质量文本数据趋于枯竭，AI 的发展面临瓶颈。要进一步迭代优化，就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识，却因物理形态的阻隔，难以被 AI 有效利用。因此，未来的 OCR 文字识别技术，或将成为向 AI 输送高质量「数据燃料…

2026年1月30日

379000

AI产业动态

吴恩达新课程：Agent文档提取技术，OCR准确率达99.15%的智能工作流

OCR技术迎来AI新浪潮：从文字识别到智能体文档提取你懂OCR吗？在2025年之前，这或许只是一个关于文字识别的技术问题。但进入2025年，随着AI大模型在架构、记忆、存储等领域的深度创新，OCR技术本身正经历一场深刻的范式变革，重新成为各大科技公司竞相投入的技术专项。从DeepSeek、智谱AI，到阿里千问、腾讯混元，行业领先者纷纷发布了其最新的OCR…

2026年1月16日

514000

开源项目

华为开源昇腾原生7B多模态模型：端侧部署新标杆，视觉定位与OCR能力全面领先

华为开源昇腾原生7B多模态模型：端侧部署新标杆，视觉定位与OCR能力全面领先 7B量级模型，向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景，而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。近日，华为重磅推出开源新玩家openPangu-VL-7B，直接瞄准这一核心场景精准发力。作为昇腾原生的模型，ope…

2026年1月5日

345000

AI产品库

Chandra OCR：重塑文档AI新标杆，以结构感知开启OCR 2.0时代

OCR技术已历经长期发展，关于“文档智能”的愿景也层出不穷。然而，当面对真正复杂的文档材料时，大多数OCR系统的表现往往不尽如人意： 📄 模糊的PDF文件🧮 老旧数学作业纸的扫描件🗂️ 多栏版式的报纸扫描件✍️ 数十年前的手写表格现有的一些OCR方案在页面干净规整时表现尚可，但一旦涉及文档结构、上下文理解或内容意图，就显得力不从心。 Chandra OCR…

2025年12月24日

420001

大模型推理

PaddleOCR-VL：文档理解新突破，复杂表格公式一键精准解析

传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时，往往输出杂乱，需要大量人工整理。近期，百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。尽管其参数量仅为 9 亿，但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分，位列榜首。在推理速度上，相比同类模型 Mine…

2025年11月5日

449000

大模型工程

DeepSeek OCR：颠覆传统，用视觉压缩破解AI扩展的“十亿美元级”文档处理难题

Part I: 文本的“隐形重量” 我们通常认为文本是“轻”的：易于存储、传输和计算。但在大语言模型时代，文本变得非常“重”。处理一张发票的PDF扫描件，就可能消耗1,000至5,000个tokens。将这个数量级乘以企业日志、法律合同、监管文件和数字化档案，总token量将变得极其庞大——其中大部分是冗余、昂贵且处理缓慢的。虽然OpenAI的GPT-4-…

2025年10月31日

360000