智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

GLM-OCR 模型评测：0.9B 参数下的文本识别与表格解析实战

OCR（光学字符识别）技术正持续演进。近期，智谱 AI 开源了其轻量级模型「GLM-OCR」，尽管参数量仅为 0.9B，但据称在 OmniDocBench V1.5 等基准测试中表现不俗，尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

官方数据显示，该模型在多类文档的识别任务中取得了先进水平。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

在实际体验中，GLM-OCR 在处理格式规整的日常文档时表现高效流畅。然而，当面对字迹模糊或版式极为复杂的材料时，其表现仍会出现波动。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

综合来看，GLM-OCR 在以下场景中表现较为可靠：
* 解析格式相对规整的 Word、PPT、论文或教材中的表格。
* 识别非极端潦草的手写体、收据、代码片段或合同扫描件。
* 提取日常会议纪要或白板笔记中的文字信息。

以下将围绕其核心能力进行具体测试。

核心能力实测

根据官方介绍，GLM-OCR 主要具备以下能力：
* 通用文本识别：支持从照片、截图、扫描件等输入中识别印刷体、手写体、印章、代码等。
* 复杂表格解析：可理解合并单元格、多层表头等复杂结构，并输出对应的 HTML 代码。
* 信息结构化提取：能从卡证、票据、表格中提取关键字段，并输出结构化 JSON 数据。

（注：GLM-OCR 支持通过 vLLM、SGLang 和 Ollama 进行部署，并提供了完整的 SDK 与推理工具链。）
智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

通用文本识别能力

文本识别的核心挑战在于准确还原原文，难点通常集中于两点：一是对潦草手写、特殊符号及中英文混排的准确辨识；二是在不同质量（如清晰度、噪点）的输入图像下保持稳定的识别率。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

1. 手写体解析测试
输入一份笔迹较为潦草、包含数学公式的手写题目图片。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
模型对图片中60余个汉字与数学符号的混合内容，整体识别准确率约96%。但仍出现了几处错误，例如将笔画潦草的“X”识别为“=”，将“成立”识别为“或”，并额外生成了一行不存在的公式。作为对比，将同一图片提交给另一主流模型进行识别，其错误率略高，出现了4处解析错误。
这表明在笔画特征因潦草而模糊的情况下，模型的纠错能力均会面临挑战。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

2. 代码解析测试
输入一篇论文中符号密集的代码片段。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
模型成功识别出内容为代码，并以代码格式输出，在符号、缩进和注释位置的还原上近乎一致，适用于代码阅读或资料整理等场景。

3. 印章识别测试
输入一张盖有印章的发票图片。
模型能够识别出印章内的关键文字信息，但将印章外部的“XX增值税电子专用发票”字样也一并纳入了识别结果。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？

4. 低质量图像测试
输入一张分辨率低、文字模糊的图片。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
在图像本身特征不完整的情况下，模型除将“标签”误识为“标普”外，其余文字还原基本准确，显示出一定的抗干扰能力。

复杂表格解析能力

表格解析的评估维度包括：结构识别准确性（行/列、合并单元格、多级表头）、单元格内容识别精度（数字、日期、特殊字符），以及格式还原能力。
输入一份结构复杂的财务表格进行测试。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
测试结果显示优缺点分明。优点在于，面对大量金额数字和重复数值，模型对单元格内文字的识别准确率较高。但核心问题在于行列结构对齐出错：模型未能正确识别第一列的表头“报表项目”，导致该列整体错位，后续行列关系也随之紊乱。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
推测原因可能是该表头在视觉样式上与下方数据单元格差异不大，未能为模型提供足够的结构化区分信号。

信息结构化提取能力

在发票报销、证件信息录入等场景，用户往往需要提取特定字段而非全文。GLM-OCR 宣称能根据提示词从文档中抽取关键信息并输出 JSON。
由于在线测试版本未找到提示词输入接口，此功能可能需在本地部署环境中测试。此处参考官方示例：输入一张包含信息的表格图片并给定提取指令，模型能够输出结构清晰的 JSON 数据。智谱开源GLM-OCR模型评测：0.9B参数如何拳打GPT5.2，脚踢Gemini-3-Pro？
这表明，通过明确的提示词约束，模型可以有效地完成定向信息抽取任务。