吴恩达新课程：Agent文档提取技术，OCR准确率达99.15%的智能工作流

2026年1月16日上午11:31 • AI产业动态 • 阅读 235

OCR技术迎来AI新浪潮：从文字识别到智能体文档提取

你懂OCR吗？在2025年之前，这或许只是一个关于文字识别的技术问题。但进入2025年，随着AI大模型在架构、记忆、存储等领域的深度创新，OCR技术本身正经历一场深刻的范式变革，重新成为各大科技公司竞相投入的技术专项。

从DeepSeek、智谱AI，到阿里千问、腾讯混元，行业领先者纷纷发布了其最新的OCR相关模型与框架。在这一背景下，如何快速掌握AI时代的OCR核心技术？吴恩达（Andrew Ng）及其团队推出的新课程《从OCR到智能体文档提取》提供了一个清晰的路径。课程核心介绍了一种名为 智能体文档提取（Agent Doc Extraction，简称ADE）的新方案。

ADE不仅代表了OCR技术在智能体（Agent）时代的进阶，更是一个统一的智能体工作流。该方法在权威的DocVQA文档视觉问答基准测试中，准确率达到了99.15%。课程内容不仅涵盖本地代码实践，还提供了在AWS云平台上的完整部署指南。

OCR为何重新成为技术焦点？

在深入探讨ADE之前，有必要回顾近期各大厂商在OCR技术上的密集更新。吴恩达的这门课程，正是对这一技术趋势回归的及时响应。

自2024年10月起，相关技术讨论开始爆发。DeepSeek-OCR 提出了“视觉压缩一切”的理念，通过专属视觉编码器将万字长文压缩为数百个视觉token，在实现10倍压缩的同时仍能保持97%的高准确率，效率上单块A100显卡每日可处理超20万页文档。

几乎同一时间，智谱AI与清华大学联合发布了 Glyph框架。该框架另辟蹊径，通过“将文本渲染成图像”的思路，把超长文本转换为紧凑图像，从而轻松突破传统大模型的上下文长度限制。

紧随其后，智谱在12月正式发布了GLM-4.6V多模态系列模型，包含9B与106B两个参数版本。其中，9B版本在低成本本地OCR场景下表现出色，能处理复杂扫描件、手写笔记与模糊文档；而106B版本凭借128K的上下文窗口，能够实现跨页理解长篇幅税表、合同与科研图表，将OCR的能力边界从“识别”推向“理解与知识抽取”。

此外，阿里千问在10月发布的Qwen3-VL-30B等模型也对OCR能力进行了重要升级。腾讯混元则在11月底加入了这场技术竞赛，开源了其1B参数的HunyuanOCR模型。该模型虽参数规模小，但具备处理表格、结构化文档及多语种内容的能力，以其运行速度快、易于部署的特性迅速成为开源社区的热门选择。

ADE：为OCR装上“智能体”大脑

机器学习领域的权威吴恩达显然敏锐地捕捉到了OCR技术的复兴浪潮。其新课程的核心并非教授如何改进底层OCR算法，而是指导如何为传统的OCR流程赋予智能体（Agent）的思维与工作流。

课程首先系统回顾了OCR技术的演进历程：从早期依赖人工规则的Tesseract，到基于深度学习的PaddleOCR。然而，这些传统方法在提取文字时，往往将文档“压平”为纯文本序列，导致表格结构、图文关联、阅读顺序等关键布局信息丢失。这使得下游大模型接收到的是不完整的“半成品”数据，极易产生事实性“幻觉”。

ADE方案旨在从根本上解决这一问题。它通过三大支柱构建了一个智能化的文档理解工作流：
1. 「视觉优先」策略：将文档视为一个整体的视觉对象来理解其布局与空间关系。
2. 「以数据为中心」的优化：确保信息提取的精准度。
3. 智能体化：使系统能够主动规划、调用工具并完成复杂任务。

该工作流搭载了文档预训练Transformer（DPT）模型，使其在DocVQA基准测试中取得了99.15%的优异成绩，甚至超越了人类水平。

在实战中，ADE展现了强大的鲁棒性。无论是包含超过1000个单元格的巨型表格、复杂的手写微积分公式、盖有弯曲印章的证书，还是纯图示的安装说明书，它都能进行精准解析与结构化提取。

在落地应用层面，ADE引入的 视觉接地技术尤为关键。该技术不仅能提取文字内容，还能为文档中的每个数据块（如一段文字、一个表格单元格）分配唯一ID和精确的像素坐标，并生成对应的局部截图。这意味着，当AI助手回答某个具体数据时，用户可以一键定位到原始文档中的确切位置，实现“有图有真相”的可验证交互。

课程还提供了极具实操价值的云端部署指南，演示了如何在AWS上搭建全自动处理流水线：用户将PDF文档上传至S3存储桶后，Lambda函数会自动触发ADE进行解析，将结果转换为结构化的Markdown格式并存储；随后可利用Bedrock知识库进行索引构建，最终通过智能体框架（如Strands Agents）将其转化为具备记忆与推理能力的行业知识助手。

课程地址：https://www.deeplearning.ai/short-courses/document-ai-from-ocr-to-agentic-doc-extraction/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18173

吴恩达新课程：Agent文档提取技术，OCR准确率达99.15%的智能工作流

OCR技术迎来AI新浪潮：从文字识别到智能体文档提取

OCR为何重新成为技术焦点？

ADE：为OCR装上“智能体”大脑

相关推荐

2025上海具身智能产业全景：从政策赋能到技术突变的生态跃迁

Cloudflare颠覆AI网页抓取：Markdown for Agents实现80% Token节省，开启内容消费新范式

谷歌Gemini 3.1 Pro震撼发布：百万Token上下文、全领域SOTA刷新、SVG生成王者，价格不变性能翻倍

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

快手CroPS：跨视角正样本引擎打破搜索信息茧房，AAAI 2026 Oral成果引领向量检索新范式