智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战

OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。

官方数据显示,该模型在多类文档的识别任务中取得了先进水平。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

在实际体验中,GLM-OCR 在处理格式规整的日常文档时表现高效流畅。然而,当面对字迹模糊或版式极为复杂的材料时,其表现仍会出现波动。

综合来看,GLM-OCR 在以下场景中表现较为可靠:
* 解析格式相对规整的 Word、PPT、论文或教材中的表格。
* 识别非极端潦草的手写体、收据、代码片段或合同扫描件。
* 提取日常会议纪要或白板笔记中的文字信息。

以下将围绕其核心能力进行具体测试。

核心能力实测

根据官方介绍,GLM-OCR 主要具备以下能力:
* 通用文本识别:支持从照片、截图、扫描件等输入中识别印刷体、手写体、印章、代码等。
* 复杂表格解析:可理解合并单元格、多层表头等复杂结构,并输出对应的 HTML 代码。
* 信息结构化提取:能从卡证、票据、表格中提取关键字段,并输出结构化 JSON 数据。

(注:GLM-OCR 支持通过 vLLM、SGLang 和 Ollama 进行部署,并提供了完整的 SDK 与推理工具链。)
智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

通用文本识别能力

文本识别的核心挑战在于准确还原原文,难点通常集中于两点:一是对潦草手写、特殊符号及中英文混排的准确辨识;二是在不同质量(如清晰度、噪点)的输入图像下保持稳定的识别率。

1. 手写体解析测试
输入一份笔迹较为潦草、包含数学公式的手写题目图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型对图片中60余个汉字与数学符号的混合内容,整体识别准确率约96%。但仍出现了几处错误,例如将笔画潦草的“X”识别为“=”,将“成立”识别为“或”,并额外生成了一行不存在的公式。作为对比,将同一图片提交给另一主流模型进行识别,其错误率略高,出现了4处解析错误。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
这表明在笔画特征因潦草而模糊的情况下,模型的纠错能力均会面临挑战。

2. 代码解析测试
输入一篇论文中符号密集的代码片段。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型成功识别出内容为代码,并以代码格式输出,在符号、缩进和注释位置的还原上近乎一致,适用于代码阅读或资料整理等场景。

3. 印章识别测试
输入一张盖有印章的发票图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型能够识别出印章内的关键文字信息,但将印章外部的“XX增值税电子专用发票”字样也一并纳入了识别结果。

4. 低质量图像测试
输入一张分辨率低、文字模糊的图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
在图像本身特征不完整的情况下,模型除将“标签”误识为“标普”外,其余文字还原基本准确,显示出一定的抗干扰能力。

复杂表格解析能力

表格解析的评估维度包括:结构识别准确性(行/列、合并单元格、多级表头)、单元格内容识别精度(数字、日期、特殊字符),以及格式还原能力。
输入一份结构复杂的财务表格进行测试。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
测试结果显示优缺点分明。优点在于,面对大量金额数字和重复数值,模型对单元格内文字的识别准确率较高。但核心问题在于行列结构对齐出错:模型未能正确识别第一列的表头“报表项目”,导致该列整体错位,后续行列关系也随之紊乱。
推测原因可能是该表头在视觉样式上与下方数据单元格差异不大,未能为模型提供足够的结构化区分信号。

信息结构化提取能力

在发票报销、证件信息录入等场景,用户往往需要提取特定字段而非全文。GLM-OCR 宣称能根据提示词从文档中抽取关键信息并输出 JSON。
由于在线测试版本未找到提示词输入接口,此功能可能需在本地部署环境中测试。此处参考官方示例:输入一张包含信息的表格图片 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro? 并给定提取指令,模型能够输出结构清晰的 JSON 数据。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
这表明,通过明确的提示词约束,模型可以有效地完成定向信息抽取任务。

上个月,DeepSeek发布了DeepSeek-OCR2,其在语义理解和像素逻辑关联方面进一步强化,更侧重于对复杂内容的整体理解能力。

而近期智谱推出的GLM-OCR,则将参数量直接压缩至1B以内,同时在手写体、复杂表格等高难度场景中取得了SOTA(当前最优)性能。

不难看出,随着OCR领域热度攀升,各大厂商的竞争也逐步呈现出一些相似的“门道”,例如:

  • 模型日趋轻量化:参数量在0.07B至0.9B之间的模型越来越多,部署成本持续降低。
  • 输出效果显著提升:对于公式、代码、印章、手写混排,甚至拍摄模糊、扫描倾斜的文档,如今也能获得不错的识别效果。
  • 速度更快,价格更友好:从文档解析到结果导出的整体耗时越来越短,相关API服务的价格也更具竞争力。

抛开具体的技术细节,单从这些实用趋势来看,对用户无疑是利好消息:

  • 参数小意味着部署更便捷
  • 输出稳定意味着返工次数更少
  • 价格友好则更不必说,成本优势显而易见

总而言之,一个好用、性价比高且易于部署的模型,自然会受到用户的欢迎。

GLM-OCR的相关资源链接如下,供感兴趣的读者参考:

  • GitHub仓库:https://github.com/zai-org/GLM-OCR
  • Hugging Face模型:https://huggingface.co/zai-org/GLM-OCR
  • 在线体验平台:https://ocr.z.ai

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21108

(0)
上一篇 2026年2月11日 下午8:26
下一篇 2026年2月11日 下午8:33

相关推荐

  • ZeroClaw:Rust重构的AI Agent新星,性能提升400倍,内存占用减少99%

    26 年开年初,最火的开源项目莫过于 OpenClaw,其 Star 数已突破 20 万,增长速度远超所有人的预期,甚至可能包括其作者本人。 它让你能在本地电脑上运行 AI,并通过 Telegram、Discord、WhatsApp 等聊天软件直接指挥 AI 完成任务。 近日,一个名为 ZeroClaw 的项目正式开源。它被描述为对 OpenClaw 的“极…

    2026年2月17日
    60100
  • 跨模态知识解耦与对齐:北京大学团队突破终身行人重识别技术瓶颈

    终身行人重识别技术旨在通过持续学习不断涌现的新增行人数据,在保持对已知数据识别能力的同时,吸收新增的鉴别性信息。这一技术在公共安防监控、智慧社区管理、运动行为分析等实际场景中具有重要的研究价值和应用前景。随着监控系统全天候运行,白天采集的可见光图像和夜晚采集的红外图像数据不断积累,终身行人重识别方法需要持续学习特定模态中的新知识(例如仅适用于红外模态的热辐射…

    2025年12月6日
    21500
  • 硅谷辍学创业潮再起:AI时代下学位价值重估与创业窗口期博弈

    在 80、90 后的成长记忆中,“辍学创业,成为亿万富翁”的故事一度广为流传。 理性分析可知,这其中既有幸存者偏差,也存在个体差异。比尔·盖茨和马克·扎克伯格都来自哈佛,随时可以返校完成学业;史蒂夫·乔布斯也并未完全脱离校园,而是以旁听生的身份自由选课。 然而,这股风潮近期在硅谷再度兴起。“辍学创业”正成为一个被主动提及、甚至带有褒义色彩的标签。 这一趋势在…

    2026年1月2日
    24000
  • 国产智能机鼻祖魅族手机业务实质性停摆,19年自研史或将终结

    据界面新闻报道,2月25日,多位知情人士透露,魅族手机业务已经实质性停摆,并计划于2026年3月正式退出市场。报道称,追觅曾参与收购魅族手机的谈判,豆包也曾与魅族洽谈合作事宜,但均未达成一致。 2月25日,前魅族科技CMO兼高级副总裁李楠在微博发文,提及两年前曾为魅族制定过“魅族重振计划”,但未被管理层采纳。其文中“销声匿迹”和“改朝换代”等表述,被外界视为…

    2026年2月26日
    24200
  • AgentFS:基于SQLite的AI智能体状态管理革命,单文件封装完整运行时

    在AI智能体(Agent)系统快速发展的当下,状态管理、审计追踪和合规性保障成为制约其规模化应用的关键技术瓶颈。传统解决方案往往依赖复杂的分布式数据库或云存储服务,不仅增加了系统架构的复杂性,还带来了性能开销、数据迁移困难和平台依赖等问题。近日,由Pekka Enberg与Turso数据库的Glenn Snelling合作开发的AgentFS项目,为这一领域…

    2025年11月6日
    21700