智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

GLM-OCR 模型评测:0.9B 参数下的文本识别与表格解析实战

OCR(光学字符识别)技术正持续演进。近期,智谱 AI 开源了其轻量级模型「GLM-OCR」,尽管参数量仅为 0.9B,但据称在 OmniDocBench V1.5 等基准测试中表现不俗,尤其在处理手写体、代码文档、印章及复杂表格等场景时展现出竞争力。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

官方数据显示,该模型在多类文档的识别任务中取得了先进水平。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

在实际体验中,GLM-OCR 在处理格式规整的日常文档时表现高效流畅。然而,当面对字迹模糊或版式极为复杂的材料时,其表现仍会出现波动。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

综合来看,GLM-OCR 在以下场景中表现较为可靠:
* 解析格式相对规整的 Word、PPT、论文或教材中的表格。
* 识别非极端潦草的手写体、收据、代码片段或合同扫描件。
* 提取日常会议纪要或白板笔记中的文字信息。

以下将围绕其核心能力进行具体测试。

核心能力实测

根据官方介绍,GLM-OCR 主要具备以下能力:
* 通用文本识别:支持从照片、截图、扫描件等输入中识别印刷体、手写体、印章、代码等。
* 复杂表格解析:可理解合并单元格、多层表头等复杂结构,并输出对应的 HTML 代码。
* 信息结构化提取:能从卡证、票据、表格中提取关键字段,并输出结构化 JSON 数据。

(注:GLM-OCR 支持通过 vLLM、SGLang 和 Ollama 进行部署,并提供了完整的 SDK 与推理工具链。) 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

通用文本识别能力

文本识别的核心挑战在于准确还原原文,难点通常集中于两点:一是对潦草手写、特殊符号及中英文混排的准确辨识;二是在不同质量(如清晰度、噪点)的输入图像下保持稳定的识别率。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

1. 手写体解析测试
输入一份笔迹较为潦草、包含数学公式的手写题目图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型对图片中60余个汉字与数学符号的混合内容,整体识别准确率约96%。但仍出现了几处错误,例如将笔画潦草的“X”识别为“=”,将“成立”识别为“或”,并额外生成了一行不存在的公式。作为对比,将同一图片提交给另一主流模型进行识别,其错误率略高,出现了4处解析错误。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
这表明在笔画特征因潦草而模糊的情况下,模型的纠错能力均会面临挑战。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

2. 代码解析测试
输入一篇论文中符号密集的代码片段。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型成功识别出内容为代码,并以代码格式输出,在符号、缩进和注释位置的还原上近乎一致,适用于代码阅读或资料整理等场景。

3. 印章识别测试
输入一张盖有印章的发票图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
模型能够识别出印章内的关键文字信息,但将印章外部的“XX增值税电子专用发票”字样也一并纳入了识别结果。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

4. 低质量图像测试
输入一张分辨率低、文字模糊的图片。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
在图像本身特征不完整的情况下,模型除将“标签”误识为“标普”外,其余文字还原基本准确,显示出一定的抗干扰能力。

复杂表格解析能力

表格解析的评估维度包括:结构识别准确性(行/列、合并单元格、多级表头)、单元格内容识别精度(数字、日期、特殊字符),以及格式还原能力。
输入一份结构复杂的财务表格进行测试。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
测试结果显示优缺点分明。优点在于,面对大量金额数字和重复数值,模型对单元格内文字的识别准确率较高。但核心问题在于行列结构对齐出错:模型未能正确识别第一列的表头“报表项目”,导致该列整体错位,后续行列关系也随之紊乱。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
推测原因可能是该表头在视觉样式上与下方数据单元格差异不大,未能为模型提供足够的结构化区分信号。

信息结构化提取能力

在发票报销、证件信息录入等场景,用户往往需要提取特定字段而非全文。GLM-OCR 宣称能根据提示词从文档中抽取关键信息并输出 JSON。
由于在线测试版本未找到提示词输入接口,此功能可能需在本地部署环境中测试。此处参考官方示例:输入一张包含信息的表格图片 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro? 并给定提取指令,模型能够输出结构清晰的 JSON 数据。 智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
这表明,通过明确的提示词约束,模型可以有效地完成定向信息抽取任务。

上个月,DeepSeek发布了DeepSeek-OCR2,其在语义理解和像素逻辑关联方面进一步强化,更侧重于对复杂内容的整体理解能力。

而近期智谱推出的GLM-OCR,则将参数量直接压缩至1B以内,同时在手写体、复杂表格等高难度场景中取得了SOTA(当前最优)性能。

智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

不难看出,随着OCR领域热度攀升,各大厂商的竞争也逐步呈现出一些相似的“门道”,例如:

  • 模型日趋轻量化:参数量在0.07B至0.9B之间的模型越来越多,部署成本持续降低。
  • 输出效果显著提升:对于公式、代码、印章、手写混排,甚至拍摄模糊、扫描倾斜的文档,如今也能获得不错的识别效果。
  • 速度更快,价格更友好:从文档解析到结果导出的整体耗时越来越短,相关API服务的价格也更具竞争力。

智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

抛开具体的技术细节,单从这些实用趋势来看,对用户无疑是利好消息:

  • 参数小意味着部署更便捷智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
  • 输出稳定意味着返工次数更少智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?
  • 价格友好则更不必说,成本优势显而易见智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?

总而言之,一个好用、性价比高且易于部署的模型,自然会受到用户的欢迎。

GLM-OCR的相关资源链接如下,供感兴趣的读者参考:

  • GitHub仓库:https://github.com/zai-org/GLM-OCR
  • Hugging Face模型:https://huggingface.co/zai-org/GLM-OCR
  • 在线体验平台:https://ocr.z.ai

智谱开源GLM-OCR模型评测:0.9B参数如何拳打GPT5.2,脚踢Gemini-3-Pro?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21108

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

    Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。 我们对这两个版本进行了全面的对比评测,测试其…

    2天前
    500
  • Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?

    月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…

    2026年1月28日
    26700
  • GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

    OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

    2025年11月27日
    11600
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    8400
  • 百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

    百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界 AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。 百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭…

    2026年1月23日
    7900