OCR技术迎来AI新浪潮:从文字识别到智能体文档提取
你懂OCR吗?在2025年之前,这或许只是一个关于文字识别的技术问题。但进入2025年,随着AI大模型在架构、记忆、存储等领域的深度创新,OCR技术本身正经历一场深刻的范式变革,重新成为各大科技公司竞相投入的技术专项。

从DeepSeek、智谱AI,到阿里千问、腾讯混元,行业领先者纷纷发布了其最新的OCR相关模型与框架。在这一背景下,如何快速掌握AI时代的OCR核心技术?吴恩达(Andrew Ng)及其团队推出的新课程《从OCR到智能体文档提取》提供了一个清晰的路径。课程核心介绍了一种名为 智能体文档提取(Agent Doc Extraction,简称ADE)的新方案。

ADE不仅代表了OCR技术在智能体(Agent)时代的进阶,更是一个统一的智能体工作流。该方法在权威的DocVQA文档视觉问答基准测试中,准确率达到了99.15%。课程内容不仅涵盖本地代码实践,还提供了在AWS云平台上的完整部署指南。
OCR为何重新成为技术焦点?
在深入探讨ADE之前,有必要回顾近期各大厂商在OCR技术上的密集更新。吴恩达的这门课程,正是对这一技术趋势回归的及时响应。
自2024年10月起,相关技术讨论开始爆发。DeepSeek-OCR 提出了“视觉压缩一切”的理念,通过专属视觉编码器将万字长文压缩为数百个视觉token,在实现10倍压缩的同时仍能保持97%的高准确率,效率上单块A100显卡每日可处理超20万页文档。

几乎同一时间,智谱AI与清华大学联合发布了 Glyph框架。该框架另辟蹊径,通过“将文本渲染成图像”的思路,把超长文本转换为紧凑图像,从而轻松突破传统大模型的上下文长度限制。
紧随其后,智谱在12月正式发布了GLM-4.6V多模态系列模型,包含9B与106B两个参数版本。其中,9B版本在低成本本地OCR场景下表现出色,能处理复杂扫描件、手写笔记与模糊文档;而106B版本凭借128K的上下文窗口,能够实现跨页理解长篇幅税表、合同与科研图表,将OCR的能力边界从“识别”推向“理解与知识抽取”。

此外,阿里千问在10月发布的Qwen3-VL-30B等模型也对OCR能力进行了重要升级。腾讯混元则在11月底加入了这场技术竞赛,开源了其1B参数的HunyuanOCR模型。该模型虽参数规模小,但具备处理表格、结构化文档及多语种内容的能力,以其运行速度快、易于部署的特性迅速成为开源社区的热门选择。
ADE:为OCR装上“智能体”大脑
机器学习领域的权威吴恩达显然敏锐地捕捉到了OCR技术的复兴浪潮。其新课程的核心并非教授如何改进底层OCR算法,而是指导如何为传统的OCR流程赋予智能体(Agent)的思维与工作流。

课程首先系统回顾了OCR技术的演进历程:从早期依赖人工规则的Tesseract,到基于深度学习的PaddleOCR。然而,这些传统方法在提取文字时,往往将文档“压平”为纯文本序列,导致表格结构、图文关联、阅读顺序等关键布局信息丢失。这使得下游大模型接收到的是不完整的“半成品”数据,极易产生事实性“幻觉”。

ADE方案旨在从根本上解决这一问题。它通过三大支柱构建了一个智能化的文档理解工作流:
1. 「视觉优先」策略:将文档视为一个整体的视觉对象来理解其布局与空间关系。
2. 「以数据为中心」的优化:确保信息提取的精准度。
3. 智能体化:使系统能够主动规划、调用工具并完成复杂任务。
该工作流搭载了文档预训练Transformer(DPT)模型,使其在DocVQA基准测试中取得了99.15%的优异成绩,甚至超越了人类水平。


在实战中,ADE展现了强大的鲁棒性。无论是包含超过1000个单元格的巨型表格、复杂的手写微积分公式、盖有弯曲印章的证书,还是纯图示的安装说明书,它都能进行精准解析与结构化提取。
在落地应用层面,ADE引入的 视觉接地技术尤为关键。该技术不仅能提取文字内容,还能为文档中的每个数据块(如一段文字、一个表格单元格)分配唯一ID和精确的像素坐标,并生成对应的局部截图。这意味着,当AI助手回答某个具体数据时,用户可以一键定位到原始文档中的确切位置,实现“有图有真相”的可验证交互。
课程还提供了极具实操价值的云端部署指南,演示了如何在AWS上搭建全自动处理流水线:用户将PDF文档上传至S3存储桶后,Lambda函数会自动触发ADE进行解析,将结果转换为结构化的Markdown格式并存储;随后可利用Bedrock知识库进行索引构建,最终通过智能体框架(如Strands Agents)将其转化为具备记忆与推理能力的行业知识助手。
课程地址:https://www.deeplearning.ai/short-courses/document-ai-from-ocr-to-agentic-doc-extraction/
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18173
