GLM-OCR โมเดลประเมิน: การรู้จำข้อความและการวิเคราะห์ตารางในทางปฏิบัติด้วยพารามิเตอร์ 0.9B
เทคโนโลยี OCR (การรู้จำอักขระด้วยแสง) กำลังพัฒนาอย่างต่อเนื่อง ล่าสุด Zhipu AI ได้เปิดตัวโมเดลขนาดเบา “GLM-OCR” แม้ว่าจำนวนพารามิเตอร์จะมีเพียง 0.9B แต่ได้รับการรายงานว่ามีประสิทธิภาพดีในการทดสอบมาตรฐานเช่น OmniDocBench V1.5 โดยเฉพาะอย่างยิ่งในการจัดการกับฉากต่าง ๆ เช่น ข้อความเขียนมือ, เอกสารโค้ด, ตราประทับ และตารางที่ซับซ้อน แสดงให้เห็นถึงความสามารถในการแข่งขัน
ข้อมูลอย่างเป็นทางการแสดงให้เห็นว่าโมเดลนี้บรรลุระดับชั้นนำในงานรู้จำเอกสารหลายประเภท 
ในการทดลองใช้งานจริง GLM-OCR แสดงประสิทธิภาพที่รวดเร็วและลื่นไหลเมื่อประมวลผลเอกสารประจำวันที่มีรูปแบบเรียบร้อย อย่างไรก็ตาม เมื่อต้องเผชิญกับวัสดุที่มีลายมือไม่ชัดเจนหรือรูปแบบที่ซับซ้อนมาก การแสดงผลยังคงมีความผันผวน
โดยรวมแล้ว GLM-OCR แสดงความน่าเชื่อถือในสถานการณ์ต่อไปนี้:
* การวิเคราะห์ตารางใน Word, PPT, วิทยานิพนธ์ หรือตำราที่มีรูปแบบค่อนข้างเรียบร้อย
* การรู้จำข้อความเขียนมือที่ไม่หวัดมากเกินไป, ใบเสร็จรับเงิน, ส่วนของโค้ด หรือสแกนสัญญา
* การดึงข้อมูลข้อความจากบันทึกการประชุมประจำวันหรือบันทึกบนไวท์บอร์ด
ต่อไปจะทำการทดสอบเฉพาะเจาะจงเกี่ยวกับความสามารถหลักของโมเดล
ทดสอบความสามารถหลัก
ตามคำแนะนำอย่างเป็นทางการ GLM-OCR มีความสามารถหลักดังต่อไปนี้:
* การรู้จำข้อความทั่วไป: รองรับการรู้จำตัวพิมพ์, ข้อความเขียนมือ, ตราประทับ, โค้ด ฯลฯ จากอินพุตเช่น ภาพถ่าย, ภาพหน้าจอ, ไฟล์สแกน
* การวิเคราะห์ตารางที่ซับซ้อน: สามารถเข้าใจโครงสร้างที่ซับซ้อนเช่น เซลล์ที่รวมกัน, หัวตารางหลายชั้น และส่งออกโค้ด HTML ที่สอดคล้องกัน
* การดึงข้อมูลที่มีโครงสร้าง: สามารถดึงฟิลด์สำคัญจากบัตรประจำตัว, ใบเสร็จรับเงิน, ตาราง และส่งออกข้อมูล JSON ที่มีโครงสร้าง
(หมายเหตุ: GLM-OCR รองรับการติดตั้งผ่าน vLLM, SGLang และ Ollama และมีชุดเครื่องมือ SDK และการอนุมานที่ครบถ้วน)
ความสามารถในการรู้จำข้อความทั่วไป
ความท้าทายหลักของการรู้จำข้อความคือการคืนค่าข้อความต้นฉบับได้อย่างแม่นยำ จุดยากมักอยู่ที่สองประการ: หนึ่งคือการระบุข้อความเขียนมือที่หวัด, สัญลักษณ์พิเศษ และการผสมภาษาจีน-อังกฤษได้อย่างแม่นยำ สองคือการรักษาอัตราการรู้จำที่เสถียรภายใต้อินพุตภาพที่มีคุณภาพต่างกัน (เช่น ความชัดเจน, สัญญาณรบกวน)
1. ทดสอบการวิเคราะห์ข้อความเขียนมือ
ป้อนภาพโจทย์เขียนมือที่มีลายมือค่อนข้างหวัดและมีสูตรคณิตศาสตร์ 
โมเดลรู้จำเนื้อหาผสมระหว่างตัวอักษรจีนมากกว่า 60 ตัวและสัญลักษณ์คณิตศาสตร์ในภาพ โดยมีความแม่นยำในการรู้จำโดยรวมประมาณ 96% อย่างไรก็ตาม ยังมีข้อผิดพลาดบางประการ เช่น ระบุ “X” ที่เขียนหวัดเป็น “=” ระบุ “成立” เป็น “或” และสร้างสูตรที่ไม่ปรากฏขึ้นมาอีกหนึ่งบรรทัด เปรียบเทียบกัน โดยส่งภาพเดียวกันไปให้โมเดลหลักอีกตัวหนึ่งรู้จำ พบว่ามีอัตราความผิดพลาดสูงกว่าเล็กน้อย โดยมีข้อผิดพลาดในการวิเคราะห์ 4 จุด 
นี่แสดงให้เห็นว่าเมื่อลักษณะของลายเส้นไม่ชัดเจนเนื่องจากความหวัด ความสามารถในการแก้ไขข้อผิดพลาดของโมเดลจะเผชิญกับความท้าทาย
2. ทดสอบการวิเคราะห์โค้ด
ป้อนส่วนของโค้ดที่มีสัญลักษณ์หนาแน่นจากวิทยานิพนธ์ 
โมเดลสามารถระบุได้ว่าเนื้อหาเป็นโค้ด และส่งออกในรูปแบบโค้ด โดยการคืนค่าตำแหน่งของสัญลักษณ์, การเยื้อง และความคิดเห็นเกือบจะเหมือนกัน เหมาะสำหรับสถานการณ์เช่น การอ่านโค้ดหรือการจัดระเบียบข้อมูล
3. ทดสอบการรู้จำตราประทับ
ป้อนภาพใบแจ้งหนี้ที่มีตราประทับ 
โมเดลสามารถรู้จำข้อมูลข้อความสำคัญภายในตราประทับได้ แต่ก็รวมข้อความ “XX增值税电子专用发票” ที่อยู่ภายนอกตราประทับเข้าไปในผลการรู้จำด้วย
4. ทดสอบภาพคุณภาพต่ำ
ป้อนภาพที่มีความละเอียดต่ำและข้อความเบลอ 
ในสถานการณ์ที่ลักษณะของภาพเองไม่สมบูรณ์ โมเดลสามารถคืนค่าข้อความอื่น ๆ ได้ค่อนข้างแม่นยำ ยกเว้นการระบุ “标签” ผิดเป็น “标普” ซึ่งแสดงให้เห็นถึงความสามารถในการต้านทานสัญญาณรบกวนในระดับหนึ่ง
ความสามารถในการวิเคราะห์ตารางที่ซับซ้อน
มิติการประเมินการวิเคราะห์ตารางรวมถึง: ความแม่นยำในการรู้จำโครงสร้าง (แถว/คอลัมน์, เซลล์ที่รวมกัน, หัวตารางหลายระดับ), ความแม่นยำในการรู้จำเนื้อหาเซลล์ (ตัวเลข, วันที่, อักขระพิเศษ) และความสามารถในการคืนค่ารูปแบบ
ป้อนตารางทางการเงินที่มีโครงสร้างซับซ้อนเพื่อทดสอบ 
ผลการทดสอบแสดงให้เห็นถึงข้อดีและข้อเสียที่ชัดเจน ข้อดีคือ เมื่อเผชิญกับตัวเลขจำนวนเงินจำนวนมากและค่าซ้ำ โมเดลมีความแม่นยำในการรู้จำข้อความภายในเซลล์ค่อนข้างสูง แต่ปัญหาหลักคือการจัดตำแหน่งโครงสร้างแถวและคอลัมน์ผิดพลาด: โมเดลไม่สามารถรู้จำหัวตาราง “报表项目” ของคอลัมน์แรกได้อย่างถูกต้อง ส่งผลให้คอลัมน์นั้นผิดตำแหน่งโดยรวม และความสัมพันธ์ของแถวและคอลัมน์ต่อมาก็สับสนตามไปด้วย
คาดว่าเหตุผลอาจเป็นเพราะหัวตารางนั้นมีสไตล์ภาพที่แตกต่างจากเซลล์ข้อมูลด้านล่างไม่มากนัก ไม่ได้ให้สัญญาณแยกแยะโครงสร้างที่เพียงพอแก่โมเดล
ความสามารถในการดึงข้อมูลที่มีโครงสร้าง
ในสถานการณ์เช่น การเบิกจ่ายใบแจ้งหนี้, การป้อนข้อมูลบัตรประจำตัว ผู้ใช้มักต้องการดึงฟิลด์เฉพาะมากกว่าข้อความทั้งหมด GLM-OCR อ้างว่าสามารถดึงข้อมูลสำคัญจากเอกสารตามคำสั่งพรอมต์และส่งออก JSON
เนื่องจากเวอร์ชันทดสอบออนไลน์ไม่พบอินเทอร์เฟซสำหรับป้อนคำสั่งพรอมต์ ฟังก์ชันนี้อาจต้องทดสอบในสภาพแวดล้อมการติดตั้งท้องถิ่น ณ ที่นี้ อ้างอิงตัวอย่างอย่างเป็น官方: ป้อนภาพตารางที่มีข้อมูล
และกำหนดคำสั่งการดึงข้อมูล โมเดลสามารถส่งออกข้อมูล JSON ที่มีโครงสร้างชัดเจนได้ 
นี่แสดงให้เห็นว่า ผ่านข้อจำกัดของคำสั่งพรอมต์ที่ชัดเจน โมเดลสามารถทำงานดึงข้อมูลเฉพาะทางได้อย่างมีประสิทธิภาพ
เดือนที่แล้ว DeepSeek ได้เปิดตัว DeepSeek-OCR2 ซึ่งเสริมความแข็งแกร่งด้านความเข้าใจความหมายและความสัมพันธ์ตรรกะของพิกเซลมากขึ้น มุ่งเน้นความสามารถในการเข้าใจเนื้อหาที่ซับซ้อนโดยรวมมากขึ้น
ในขณะที่ GLM-OCR ที่ Zhipu เปิดตัวล่าสุด ได้ลดจำนวนพารามิเตอร์ลงต่ำกว่า 1B โดยตรง และในขณะเดียวกันก็บรรลุประสิทธิภาพ SOTA (ประสิทธิภาพที่ดีที่สุดในปัจจุบัน) ในสถานการณ์ที่ยากเช่น ข้อความเขียนมือ, ตารางที่ซับซ้อน
ไม่ยากที่จะเห็นว่า เมื่อความนิยมในสาขา OCR เพิ่มขึ้น การแข่งขันของผู้ผลิตรายใหญ่ก็ค่อยๆ แสดงให้เห็น “เคล็ดลับ” บางอย่างที่คล้ายกัน เช่น:
- โมเดลมีน้ำหนักเบามากขึ้นเรื่อยๆ: มีโมเดลมากขึ้นเรื่อยๆ ที่มีพารามิเตอร์ระหว่าง 0.07B ถึง 0.9B ค่าใช้จ่ายในการติดตั้งลดลงอย่างต่อเนื่อง
- ผลลัพธ์ที่ส่งออกดีขึ้นอย่างเห็นได้ชัด: สำหรับสูตร, โค้ด, ตราประทับ, การผสมข้อความเขียนมือ แม้แต่เอกสารที่ถ่ายเบลอ, สแกนเอียง ปัจจุบันก็สามารถได้รับผลการรู้จำที่ดี
- เร็วขึ้น ราคาเป็นมิตรมากขึ้น: เวลารวมตั้งแต่การวิเคราะห์เอกสารไปจนถึงการส่งออกผลลัพธ์สั้นลงเรื่อยๆ ราคาของบริการ API ที่เกี่ยวข้องก็มีความสามารถในการแข่งขันมากขึ้น
หากละเว้นรายละเอียดทางเทคนิคเฉพาะเจาะจง และพิจารณาเพียงแนวโน้มการใช้งานเหล่านี้ สำหรับผู้ใช้แล้วเป็นข่าวดีอย่างแน่นอน:
- พารามิเตอร์น้อยหมายถึงการติดตั้งที่สะดวกกว่า
- ผลลัพธ์ที่เสถียรหมายถึงจำนวนครั้งที่ต้องทำซ้ำน้อยลง
- ราคาที่เป็นมิตรไม่ต้องพูดถึง ข้อได้เปรียบด้านต้นทุนเห็นได้ชัด
โดยสรุป โมเดลที่ใช้งานง่าย, มีราคาคุ้มค่า และติดตั้งง่าย ย่อมได้รับการต้อนรับจากผู้ใช้
ลิงก์ทรัพยากรที่เกี่ยวข้องกับ GLM-OCR มีดังต่อไปนี้ สำหรับผู้อ่านที่สนใจอ้างอิง:
- ที่เก็บ GitHub: https://github.com/zai-org/GLM-OCR
- โมเดล Hugging Face: https://huggingface.co/zai-org/GLM-OCR
- แพลตฟอร์มทดลองใช้ออนไลน์: https://ocr.z.ai
ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22963
