การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

2026年2月11日 pm8:32 • ข่าวสารอุตสาหกรรม AI • 250 views

GLM-OCR โมเดลประเมิน: การรู้จำข้อความและการวิเคราะห์ตารางในทางปฏิบัติด้วยพารามิเตอร์ 0.9B

เทคโนโลยี OCR (การรู้จำอักขระด้วยแสง) กำลังพัฒนาอย่างต่อเนื่อง ล่าสุด Zhipu AI ได้เปิดตัวโมเดลขนาดเบา “GLM-OCR” แม้ว่าจำนวนพารามิเตอร์จะมีเพียง 0.9B แต่ได้รับการรายงานว่ามีประสิทธิภาพดีในการทดสอบมาตรฐานเช่น OmniDocBench V1.5 โดยเฉพาะอย่างยิ่งในการจัดการกับฉากต่าง ๆ เช่น ข้อความเขียนมือ, เอกสารโค้ด, ตราประทับ และตารางที่ซับซ้อน แสดงให้เห็นถึงความสามารถในการแข่งขัน

ข้อมูลอย่างเป็นทางการแสดงให้เห็นว่าโมเดลนี้บรรลุระดับชั้นนำในงานรู้จำเอกสารหลายประเภท การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

ในการทดลองใช้งานจริง GLM-OCR แสดงประสิทธิภาพที่รวดเร็วและลื่นไหลเมื่อประมวลผลเอกสารประจำวันที่มีรูปแบบเรียบร้อย อย่างไรก็ตาม เมื่อต้องเผชิญกับวัสดุที่มีลายมือไม่ชัดเจนหรือรูปแบบที่ซับซ้อนมาก การแสดงผลยังคงมีความผันผวน

โดยรวมแล้ว GLM-OCR แสดงความน่าเชื่อถือในสถานการณ์ต่อไปนี้:
* การวิเคราะห์ตารางใน Word, PPT, วิทยานิพนธ์ หรือตำราที่มีรูปแบบค่อนข้างเรียบร้อย
* การรู้จำข้อความเขียนมือที่ไม่หวัดมากเกินไป, ใบเสร็จรับเงิน, ส่วนของโค้ด หรือสแกนสัญญา
* การดึงข้อมูลข้อความจากบันทึกการประชุมประจำวันหรือบันทึกบนไวท์บอร์ด

ต่อไปจะทำการทดสอบเฉพาะเจาะจงเกี่ยวกับความสามารถหลักของโมเดล

ทดสอบความสามารถหลัก

ตามคำแนะนำอย่างเป็นทางการ GLM-OCR มีความสามารถหลักดังต่อไปนี้:
* การรู้จำข้อความทั่วไป: รองรับการรู้จำตัวพิมพ์, ข้อความเขียนมือ, ตราประทับ, โค้ด ฯลฯ จากอินพุตเช่น ภาพถ่าย, ภาพหน้าจอ, ไฟล์สแกน
* การวิเคราะห์ตารางที่ซับซ้อน: สามารถเข้าใจโครงสร้างที่ซับซ้อนเช่น เซลล์ที่รวมกัน, หัวตารางหลายชั้น และส่งออกโค้ด HTML ที่สอดคล้องกัน
* การดึงข้อมูลที่มีโครงสร้าง: สามารถดึงฟิลด์สำคัญจากบัตรประจำตัว, ใบเสร็จรับเงิน, ตาราง และส่งออกข้อมูล JSON ที่มีโครงสร้าง

(หมายเหตุ: GLM-OCR รองรับการติดตั้งผ่าน vLLM, SGLang และ Ollama และมีชุดเครื่องมือ SDK และการอนุมานที่ครบถ้วน)
การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

ความสามารถในการรู้จำข้อความทั่วไป

ความท้าทายหลักของการรู้จำข้อความคือการคืนค่าข้อความต้นฉบับได้อย่างแม่นยำ จุดยากมักอยู่ที่สองประการ: หนึ่งคือการระบุข้อความเขียนมือที่หวัด, สัญลักษณ์พิเศษ และการผสมภาษาจีน-อังกฤษได้อย่างแม่นยำ สองคือการรักษาอัตราการรู้จำที่เสถียรภายใต้อินพุตภาพที่มีคุณภาพต่างกัน (เช่น ความชัดเจน, สัญญาณรบกวน)

1. ทดสอบการวิเคราะห์ข้อความเขียนมือ
ป้อนภาพโจทย์เขียนมือที่มีลายมือค่อนข้างหวัดและมีสูตรคณิตศาสตร์ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
โมเดลรู้จำเนื้อหาผสมระหว่างตัวอักษรจีนมากกว่า 60 ตัวและสัญลักษณ์คณิตศาสตร์ในภาพ โดยมีความแม่นยำในการรู้จำโดยรวมประมาณ 96% อย่างไรก็ตาม ยังมีข้อผิดพลาดบางประการ เช่น ระบุ “X” ที่เขียนหวัดเป็น “=” ระบุ “成立” เป็น “或” และสร้างสูตรที่ไม่ปรากฏขึ้นมาอีกหนึ่งบรรทัด เปรียบเทียบกัน โดยส่งภาพเดียวกันไปให้โมเดลหลักอีกตัวหนึ่งรู้จำ พบว่ามีอัตราความผิดพลาดสูงกว่าเล็กน้อย โดยมีข้อผิดพลาดในการวิเคราะห์ 4 จุด การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
นี่แสดงให้เห็นว่าเมื่อลักษณะของลายเส้นไม่ชัดเจนเนื่องจากความหวัด ความสามารถในการแก้ไขข้อผิดพลาดของโมเดลจะเผชิญกับความท้าทาย

2. ทดสอบการวิเคราะห์โค้ด
ป้อนส่วนของโค้ดที่มีสัญลักษณ์หนาแน่นจากวิทยานิพนธ์ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
โมเดลสามารถระบุได้ว่าเนื้อหาเป็นโค้ด และส่งออกในรูปแบบโค้ด โดยการคืนค่าตำแหน่งของสัญลักษณ์, การเยื้อง และความคิดเห็นเกือบจะเหมือนกัน เหมาะสำหรับสถานการณ์เช่น การอ่านโค้ดหรือการจัดระเบียบข้อมูล

3. ทดสอบการรู้จำตราประทับ
ป้อนภาพใบแจ้งหนี้ที่มีตราประทับ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
โมเดลสามารถรู้จำข้อมูลข้อความสำคัญภายในตราประทับได้ แต่ก็รวมข้อความ “XX增值税电子专用发票” ที่อยู่ภายนอกตราประทับเข้าไปในผลการรู้จำด้วย

4. ทดสอบภาพคุณภาพต่ำ
ป้อนภาพที่มีความละเอียดต่ำและข้อความเบลอ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
ในสถานการณ์ที่ลักษณะของภาพเองไม่สมบูรณ์ โมเดลสามารถคืนค่าข้อความอื่น ๆ ได้ค่อนข้างแม่นยำ ยกเว้นการระบุ “标签” ผิดเป็น “标普” ซึ่งแสดงให้เห็นถึงความสามารถในการต้านทานสัญญาณรบกวนในระดับหนึ่ง

ความสามารถในการวิเคราะห์ตารางที่ซับซ้อน

มิติการประเมินการวิเคราะห์ตารางรวมถึง: ความแม่นยำในการรู้จำโครงสร้าง (แถว/คอลัมน์, เซลล์ที่รวมกัน, หัวตารางหลายระดับ), ความแม่นยำในการรู้จำเนื้อหาเซลล์ (ตัวเลข, วันที่, อักขระพิเศษ) และความสามารถในการคืนค่ารูปแบบ
ป้อนตารางทางการเงินที่มีโครงสร้างซับซ้อนเพื่อทดสอบ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
ผลการทดสอบแสดงให้เห็นถึงข้อดีและข้อเสียที่ชัดเจน ข้อดีคือ เมื่อเผชิญกับตัวเลขจำนวนเงินจำนวนมากและค่าซ้ำ โมเดลมีความแม่นยำในการรู้จำข้อความภายในเซลล์ค่อนข้างสูง แต่ปัญหาหลักคือการจัดตำแหน่งโครงสร้างแถวและคอลัมน์ผิดพลาด: โมเดลไม่สามารถรู้จำหัวตาราง “报表项目” ของคอลัมน์แรกได้อย่างถูกต้อง ส่งผลให้คอลัมน์นั้นผิดตำแหน่งโดยรวม และความสัมพันธ์ของแถวและคอลัมน์ต่อมาก็สับสนตามไปด้วย
คาดว่าเหตุผลอาจเป็นเพราะหัวตารางนั้นมีสไตล์ภาพที่แตกต่างจากเซลล์ข้อมูลด้านล่างไม่มากนัก ไม่ได้ให้สัญญาณแยกแยะโครงสร้างที่เพียงพอแก่โมเดล

ความสามารถในการดึงข้อมูลที่มีโครงสร้าง

ในสถานการณ์เช่น การเบิกจ่ายใบแจ้งหนี้, การป้อนข้อมูลบัตรประจำตัว ผู้ใช้มักต้องการดึงฟิลด์เฉพาะมากกว่าข้อความทั้งหมด GLM-OCR อ้างว่าสามารถดึงข้อมูลสำคัญจากเอกสารตามคำสั่งพรอมต์และส่งออก JSON
เนื่องจากเวอร์ชันทดสอบออนไลน์ไม่พบอินเทอร์เฟซสำหรับป้อนคำสั่งพรอมต์ ฟังก์ชันนี้อาจต้องทดสอบในสภาพแวดล้อมการติดตั้งท้องถิ่น ณ ที่นี้ อ้างอิงตัวอย่างอย่างเป็น官方: ป้อนภาพตารางที่มีข้อมูล และกำหนดคำสั่งการดึงข้อมูล โมเดลสามารถส่งออกข้อมูล JSON ที่มีโครงสร้างชัดเจนได้ การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?
นี่แสดงให้เห็นว่า ผ่านข้อจำกัดของคำสั่งพรอมต์ที่ชัดเจน โมเดลสามารถทำงานดึงข้อมูลเฉพาะทางได้อย่างมีประสิทธิภาพ

เดือนที่แล้ว DeepSeek ได้เปิดตัว DeepSeek-OCR2 ซึ่งเสริมความแข็งแกร่งด้านความเข้าใจความหมายและความสัมพันธ์ตรรกะของพิกเซลมากขึ้น มุ่งเน้นความสามารถในการเข้าใจเนื้อหาที่ซับซ้อนโดยรวมมากขึ้น

ในขณะที่ GLM-OCR ที่ Zhipu เปิดตัวล่าสุด ได้ลดจำนวนพารามิเตอร์ลงต่ำกว่า 1B โดยตรง และในขณะเดียวกันก็บรรลุประสิทธิภาพ SOTA (ประสิทธิภาพที่ดีที่สุดในปัจจุบัน) ในสถานการณ์ที่ยากเช่น ข้อความเขียนมือ, ตารางที่ซับซ้อน

ไม่ยากที่จะเห็นว่า เมื่อความนิยมในสาขา OCR เพิ่มขึ้น การแข่งขันของผู้ผลิตรายใหญ่ก็ค่อยๆ แสดงให้เห็น “เคล็ดลับ” บางอย่างที่คล้ายกัน เช่น:

โมเดลมีน้ำหนักเบามากขึ้นเรื่อยๆ: มีโมเดลมากขึ้นเรื่อยๆ ที่มีพารามิเตอร์ระหว่าง 0.07B ถึง 0.9B ค่าใช้จ่ายในการติดตั้งลดลงอย่างต่อเนื่อง
ผลลัพธ์ที่ส่งออกดีขึ้นอย่างเห็นได้ชัด: สำหรับสูตร, โค้ด, ตราประทับ, การผสมข้อความเขียนมือ แม้แต่เอกสารที่ถ่ายเบลอ, สแกนเอียง ปัจจุบันก็สามารถได้รับผลการรู้จำที่ดี
เร็วขึ้น ราคาเป็นมิตรมากขึ้น: เวลารวมตั้งแต่การวิเคราะห์เอกสารไปจนถึงการส่งออกผลลัพธ์สั้นลงเรื่อยๆ ราคาของบริการ API ที่เกี่ยวข้องก็มีความสามารถในการแข่งขันมากขึ้น

หากละเว้นรายละเอียดทางเทคนิคเฉพาะเจาะจง และพิจารณาเพียงแนวโน้มการใช้งานเหล่านี้ สำหรับผู้ใช้แล้วเป็นข่าวดีอย่างแน่นอน:

พารามิเตอร์น้อยหมายถึงการติดตั้งที่สะดวกกว่า
ผลลัพธ์ที่เสถียรหมายถึงจำนวนครั้งที่ต้องทำซ้ำน้อยลง
ราคาที่เป็นมิตรไม่ต้องพูดถึง ข้อได้เปรียบด้านต้นทุนเห็นได้ชัด

โดยสรุป โมเดลที่ใช้งานง่าย, มีราคาคุ้มค่า และติดตั้งง่าย ย่อมได้รับการต้อนรับจากผู้ใช้

ลิงก์ทรัพยากรที่เกี่ยวข้องกับ GLM-OCR มีดังต่อไปนี้ สำหรับผู้อ่านที่สนใจอ้างอิง:

ที่เก็บ GitHub: https://github.com/zai-org/GLM-OCR
โมเดล Hugging Face: https://huggingface.co/zai-org/GLM-OCR
แพลตฟอร์มทดลองใช้ออนไลน์: https://ocr.z.ai

ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22963

Like (0)

0 0

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

Previous 2026年2月11日 pm8:26

เอเจนต์วิวัฒนาการด้วยตนเองทำลายข้อจำกัดการขุดปัจจัยเชิงปริมาณ: กรอบ QuantaAlpha บรรลุผลตอบแทนรายปี 27.75%

Next 2026年2月11日 pm8:33

ข่าวสารอุตสาหกรรม AI

MiniMax M2.5 ระเบิดความต้องการ AI: ปริมาณการใช้งานรายสัปดาห์ทะลุ 3T โอเพนซอร์ส Agent Eco Full Access

เทศกาลตรุษจีนนี้ MiniMax โด่งดังสุดขีด วันที่ 20 กุมภาพันธ์ วันแรกของการซื้อขายในตลาดหุ้นฮ่องกงในปีม้า หุ้น MiniMax ปิดตลาดที่เพิ่มขึ้น 14.52% มูลค่าตลาดทะลุ 3.042 แสนล้านดอลลาร์ฮ่…

2026年2月25日
268000
การวิเคราะห์เชิงลึกของ Ultraman: OpenClaw นำแนวโน้มระยะยาว, Codex อาจกลายเป็นผลิตภัณฑ์หลักอันดับสามของ OpenAI, เปิดเผยความขัดแย้งที่ซ่อนเร้นสี่ประการในยุค AI

เมื่อเร็วๆ นี้ ซาม อัลต์แมน (Sam Altman) CEO ของ OpenAI และ Jeetu Patel ประธานและหัวหน้าเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Cisco ได้ร่วมสนทนาอย่างลึกซึ้งในงาน Cisco AI Summit ในการสนทนานี…

ข่าวสารอุตสาหกรรม AI 2026年2月5日
208000
ข่าวสารอุตสาหกรรม AI

ผู้เชี่ยวชาญ NVIDIA ทำนาย: การสร้างแบบจำลองโลกจะแทนที่การทำนายคำศัพท์ เปิดยุคใหม่ของการฝึกฝน AI ล่วงหน้า

henry ส่งจาก 凹非寺 ควอนตัมบิต | บัญชี WeChat QbitAI หลังจาก “การทำนายคำถัดไป” การสร้างแบบจำลองโลกจะกลายเป็นกระบวนทัศน์การฝึกล่วงหน้าใหม่ นี่คือการประเมินล่าสุดจาก Jim Fan…

2026年2月5日
196000
อัปเดตสำคัญของโมเดล AI ขนาดใหญ่ในเดือนกุมภาพันธ์: Alibaba, Stepfun, Zhipu AI และบริษัทยักษ์ใหญ่ประกาศเปิดตัวใหม่ พร้อมความก้าวหน้าครั้งสำคัญในการเขียนโปรแกรม วิดีโอ และการประมวลผลเอกสาร

1 กุมภาพันธ์ 【โอเพ่นซอร์ส】อาลี (Alibaba) เปิดตัว Qwen3-Coder-Next อาลีเปิดตัวโมเดลเอเจนต์อัจฉริยะสำหรับการเขียนโปรแกรม Qwen3-Coder-Next โมเดลนี้ใช้สถาปัตยกรรม Mixture of Experts (M…

ข่าวสารอุตสาหกรรม AI 2026年3月2日
218000
ข่าวสารอุตสาหกรรม AI

Anthropic เปิดตัวเบนช์มาร์คลับ ‘Mythos’ อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ข้อมูลเบนช์มาร์ก Anthropic Mythos 疑似รั่วไหล ทำสถิติใหม่หลายรายการ ในช่วง 24 ชั่วโมงที่ผ่านมา เกิดเหตุข้อมูลรั่วไหลต่อเนื่องในวงการ AI หลังจากซอร์สโค้ดของเครื่องมือบรรทัดคำสั่ง Clau…

2026年4月2日
101000