GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战
OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。 
官方数据显示,该模型在多类文档的识别任务中取得了先进水平。 
在实际体验中,GLM-OCR 在处理格式规整的日常文档时表现高效流畅。然而,当面对字迹模糊或版式极为复杂的材料时,其表现仍会出现波动。 
综合来看,GLM-OCR 在以下场景中表现较为可靠:
* 解析格式相对规整的 Word、PPT、论文或教材中的表格。
* 识别非极端潦草的手写体、收据、代码片段或合同扫描件。
* 提取日常会议纪要或白板笔记中的文字信息。
以下将围绕其核心能力进行具体测试。
核心能力实测
根据官方介绍,GLM-OCR 主要具备以下能力:
* 通用文本识别:支持从照片、截图、扫描件等输入中识别印刷体、手写体、印章、代码等。
* 复杂表格解析:可理解合并单元格、多层表头等复杂结构,并输出对应的 HTML 代码。
* 信息结构化提取:能从卡证、票据、表格中提取关键字段,并输出结构化 JSON 数据。
(注:GLM-OCR 支持通过 vLLM、SGLang 和 Ollama 进行部署,并提供了完整的 SDK 与推理工具链。) 

通用文本识别能力
文本识别的核心挑战在于准确还原原文,难点通常集中于两点:一是对潦草手写、特殊符号及中英文混排的准确辨识;二是在不同质量(如清晰度、噪点)的输入图像下保持稳定的识别率。 
1. 手写体解析测试
输入一份笔迹较为潦草、包含数学公式的手写题目图片。 
模型对图片中60余个汉字与数学符号的混合内容,整体识别准确率约96%。但仍出现了几处错误,例如将笔画潦草的“X”识别为“=”,将“成立”识别为“或”,并额外生成了一行不存在的公式。作为对比,将同一图片提交给另一主流模型进行识别,其错误率略高,出现了4处解析错误。 
这表明在笔画特征因潦草而模糊的情况下,模型的纠错能力均会面临挑战。 
2. 代码解析测试
输入一篇论文中符号密集的代码片段。 
模型成功识别出内容为代码,并以代码格式输出,在符号、缩进和注释位置的还原上近乎一致,适用于代码阅读或资料整理等场景。
3. 印章识别测试
输入一张盖有印章的发票图片。 
模型能够识别出印章内的关键文字信息,但将印章外部的“XX增值税电子专用发票”字样也一并纳入了识别结果。 
4. 低质量图像测试
输入一张分辨率低、文字模糊的图片。 
在图像本身特征不完整的情况下,模型除将“标签”误识为“标普”外,其余文字还原基本准确,显示出一定的抗干扰能力。
复杂表格解析能力
表格解析的评估维度包括:结构识别准确性(行/列、合并单元格、多级表头)、单元格内容识别精度(数字、日期、特殊字符),以及格式还原能力。
输入一份结构复杂的财务表格进行测试。 
测试结果显示优缺点分明。优点在于,面对大量金额数字和重复数值,模型对单元格内文字的识别准确率较高。但核心问题在于行列结构对齐出错:模型未能正确识别第一列的表头“报表项目”,导致该列整体错位,后续行列关系也随之紊乱。 
推测原因可能是该表头在视觉样式上与下方数据单元格差异不大,未能为模型提供足够的结构化区分信号。
信息结构化提取能力
在发票报销、证件信息录入等场景,用户往往需要提取特定字段而非全文。GLM-OCR 宣称能根据提示词从文档中抽取关键信息并输出 JSON。
由于在线测试版本未找到提示词输入接口,此功能可能需在本地部署环境中测试。此处参考官方示例:输入一张包含信息的表格图片
并给定提取指令,模型能够输出结构清晰的 JSON 数据。 
这表明,通过明确的提示词约束,模型可以有效地完成定向信息抽取任务。
上个月,DeepSeek发布了DeepSeek-OCR2,其在语义理解和像素逻辑关联方面进一步强化,更侧重于对复杂内容的整体理解能力。
而近期智谱推出的GLM-OCR,则将参数量直接压缩至1B以内,同时在手写体、复杂表格等高难度场景中取得了SOTA(当前最优)性能。

不难看出,随着OCR领域热度攀升,各大厂商的竞争也逐步呈现出一些相似的“门道”,例如:
- 模型日趋轻量化:参数量在0.07B至0.9B之间的模型越来越多,部署成本持续降低。
- 输出效果显著提升:对于公式、代码、印章、手写混排,甚至拍摄模糊、扫描倾斜的文档,如今也能获得不错的识别效果。
- 速度更快,价格更友好:从文档解析到结果导出的整体耗时越来越短,相关API服务的价格也更具竞争力。

抛开具体的技术细节,单从这些实用趋势来看,对用户无疑是利好消息:
- 参数小意味着部署更便捷。

- 输出稳定意味着返工次数更少。

- 价格友好则更不必说,成本优势显而易见。

总而言之,一个好用、性价比高且易于部署的模型,自然会受到用户的欢迎。
GLM-OCR的相关资源链接如下,供感兴趣的读者参考:
- GitHub仓库:https://github.com/zai-org/GLM-OCR
- Hugging Face模型:https://huggingface.co/zai-org/GLM-OCR
- 在线体验平台:https://ocr.z.ai

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21108
