MonkeyOCR v1.5：多模态文档解析新范式，复杂表格与跨页结构难题的终结者

2025年11月18日下午12:34 • AI产业动态 • 阅读 173

2025年6月以来，多模态文档解析领域迎来新一轮研究热潮，该方向逐渐成为多模态理解及大模型数据来源的重要前沿课题。在数字化办公与AI技术深度融合的今天，文档智能解析技术已成为信息抽取、检索增强生成和自动化文档分析的核心基石。然而，现实世界中的文档往往布局复杂、表格嵌套、内含图片公式，甚至跨页分布，这让许多现有的OCR（光学字符识别系统，Optical Character Recognition）系统感到棘手。

MonkeyOCR v1.5是一个全新的统一视觉-语言文档解析框架。它在全能多模态文档解析基准OmniDocBench v1.5，OCRFlux-bench上较此前最优方法（MinerU2.5、PPOCR-VL、DeepSeek-OCR等）实现了全面突破，更在复杂表格、嵌入图像和跨页结构等棘手场景中，相较此前最优方法大幅提升9.7%。

为何需要更强的文档解析引擎？想象一下这些场景：从一份扫描的科研论文中，精准提取包含嵌套表格和复杂公式的内容；将一份跨越多页、含有产品插图的商品目录表格，无损地还原为一个完整的结构化数据；准确理解一份排版密集的报纸版面上，文本、图片和表格的正确阅读顺序。传统的OCR系统在面对这些挑战时，往往力不从心。2025年6月，MonkeyOCR第一版本发布时提到此前的方法要么采用串联式流水线，容易导致错误累积；要么采用端到端模型，因文档图像的高分辨率而面临巨大的计算瓶颈。v1.5除了提升了精度之外，同时支持嵌入式图像恢复、跨页表格重建以及多列表格合并，并在复杂的真实文档场景中展现出更强的应用潜力。

MonkeyOCR v1.5的核心设计理念是：将全局的结构理解与细粒度的内容识别高效解耦，并在最关键、最复杂的环节引入创新性的智能算法。

1.高效的两阶段解析管道

v1.5将流程简化为两个清晰、轻量的阶段：阶段一：布局分析与阅读顺序预测采用一个视觉大语言模型，联合预测文档的布局（哪里是文本、表格、公式）和阅读顺序。这种方式充分利用了全局视觉上下文，确保了结构元素与其空间顺序的一致性，从源头减少了错误。阶段二：区域级内容识别根据第一阶段检测到的区域，系统并行地对每个区域内的文本、公式或表格进行高精度识别。这种设计既保证了细粒度的识别质量，又通过并行处理维持了整体效率。

2.针对复杂表格的三大“杀手锏”

a）基于视觉一致性的强化学习理解复杂表格的结构是行业难题。提出视觉一致性强化学习方案。简单来说，通过训练了一个“奖励模型”，通过比较原始表格图像与识别结果重新渲染后的图像，来评估识别质量的好坏。这套系统能让模型在没有大量人工标注数据的情况下，自我优化，显著提升对复杂表格的解析保真性。

b）图像解耦表格解析表格里嵌入图片怎么办？此前的方法在该问题上均表现不佳，MonkeyOCR v1.5给出了简单高效的解决方案：图像解耦表格解析。该模块会先检测并“遮住”表格中的图片，用占位符替代，然后让模型专注于解析纯文本的表格结构（生成含标签的HTML），最后再将原始图片“贴回”原位。这完美解决了图片干扰表格结构识别的问题。

c）类型引导的表格合并对于跨页或分栏的表格，v1.5能智能地将其“缝合”起来。我们系统性地定义了三种常见跨页模式（全标题重复、无标题连续、行分割连续），并采用规则匹配+BERT语义判别的混合决策流程，自动识别类型并执行精准合并，还原出完整的表格结构。

在以下权威基准的测试中，MonkeyOCR v1.5交出了一份亮眼的成绩单：综合性能第一：在OmniDocBench v1.5基准测试中，MonkeyOCR v1.5以93.01%的整体得分登顶榜首。它不仅超越了前最佳模型PPOCR-VL（92.86%）和MinerU 2.5（90.7%），也领先于其他知名模型，如dots.ocr（88.4%）和Deepseek-OCR（87.0%），证明了其综合解析能力的显著进步。