จุดอ่อนด้านการรับรู้ทางเรขาคณิตถูกเปิดเผย! ทีมจากมหาวิทยาลัยชิงหว่านเสนอเฟรมเวิร์กการประเมิน GEOPERCEIVE เป็นครั้งแรกที่ประเมินความสามารถในการรับรู้เรขาคณิตของ VLM อย่างเป็นอิสระ

2026年3月31日 am10:56 • การประเมินโมเดลขนาดใหญ่ • 157 views

จุดอ่อนด้านการรับรู้รูปทรงเรขาคณิตถูกเปิดเผย! ทีมวิจัยจากมหาวิทยาลัยชิงหวาเสนอเฟรมเวิร์กประเมิน GEOPERCEIVE ประเมินความสามารถในการจดจำรูปทรงเรขาคณิตของ VLM อย่างเป็นอิสระเป็นครั้งแรก

ในปีที่ผ่านมา แบบจำลองภาษาที่ใช้การมองเห็น (VLMs) ได้รับความก้าวหน้าอย่างมากในงานหลายรูปแบบ เช่น การถามตอบด้วยภาพและข้อความ การทำความเข้าใจตาราง และการแก้โจทย์ปัญหาคณิตศาสตร์ อย่างไรก็ตาม เมื่อต้องเผชิญกับปัญหาที่เกี่ยวข้องกับรูปทรงเรขาคณิต ประสิทธิภาพของพวกมันมักจะลดลงอย่างเห็นได้ชัด

เมื่อเร็วๆ นี้ ทีมวิจัยจากห้องปฏิบัติการกวงหมิงและมหาวิทยาลัยชิงหวา จากการวิเคราะห์ข้อผิดพลาดของแบบจำลองหลักหลายตัวอย่างลึกซึ้ง พบปัญหาสำคัญ: ความล้มเหลวของ VLM ในปัจจุบันเกี่ยวกับปัญหาทางเรขาคณิต ส่วนใหญ่เกิดจากจุดอ่อนด้าน ข้อผิดพลาดในการรับรู้รูปทรงเรขาคณิต และปัจจัยหลักนี้มักไม่ได้รับการวิเคราะห์แยกและเป็นระบบในการวิจัยที่มีอยู่

กล่าวอีกนัยหนึ่ง ในหลายกรณี แบบจำลองไม่ได้ไม่สามารถให้เหตุผลได้ แต่ในขั้นตอนก่อนหน้านี้ — การจดจำโครงสร้างของรูปภาพ — เกิดความคลาดเคลื่อนไปแล้ว ข้อผิดพลาดในการรับรู้ที่พบบ่อย ได้แก่:
* การจดจำองค์ประกอบพื้นฐานทางเรขาคณิตผิดพลาด (จุด, เส้น, วงกลม)
* การตรวจไม่พบความสัมพันธ์โครงสร้างที่สำคัญ (การอยู่บนเส้นตรงเดียวกัน, การตั้งฉาก, การสัมผัส)
* การระบุตำแหน่งภาพ (grounding) เบี่ยงเบน
* การจดจำโครงสร้างที่ไม่มีอยู่จริง (ภาพหลอนเชิงโครงสร้าง)

ปัญหาเหล่านี้เกิดขึ้นก่อนการให้เหตุผล แต่ส่งผลโดยตรงต่อห่วงโซ่ตรรกะในขั้นตอนต่อมา

จุดอ่อนด้านการรับรู้ทางเรขาคณิตถูกเปิดเผย! ทีมจากมหาวิทยาลัยชิงหว่านเสนอเฟรมเวิร์กการประเมิน GEOPERCEIVE เป็นครั้งแรกที่ประเมินความสามารถในการรับรู้เรขาคณิตของ VLM อย่างเป็นอิสระ

GEOPERCEIVE: การประเมินความสามารถในการรับรู้รูปทรงเรขาคณิตอย่างอิสระเป็นครั้งแรก

เกณฑ์มาตรฐานการประเมินรูปทรงเรขาคณิตที่มีอยู่ มักใช้วิธีแบบ end-to-end: ป้อนข้อมูล “ภาพ + คำถาม” และตัดสินว่าคำตอบที่เป็นภาษาธรรมชาติที่แบบจำลองให้มาถูกต้องหรือไม่ วิธีนี้ผสมข้อผิดพลาดในการรับรู้และข้อผิดพลาดในการให้เหตุผลเข้าด้วยกัน ทำให้ยากต่อการระบุจุดบกพร่องของความสามารถได้อย่างแม่นยำ

ด้วยเหตุนี้ ทีมวิจัยจึงเสนอ GEOPERCEIVE ซึ่งเป็นเฟรมเวิร์กการประเมินอิสระชุดแรกที่มุ่งเน้นไปที่ความสามารถในการรับรู้รูปทรงเรขาคณิต เกณฑ์มาตรฐานในอดีตให้ความสำคัญกับ “แบบจำลอง ‘ตอบถูก’ หรือไม่” ในขณะที่ GEOPERCEIVE ให้ความสำคัญกับ “แบบจำลอง ‘มองเห็นถูก’ หรือไม่”

การใช้โปรแกรมแสดงรูปทรงเรขาคณิต: GeoDSL

ทีมวิจัยได้ออกแบบภาษาเฉพาะสำหรับโดเมนเรขาคณิต — GeoDSL — สำหรับการแสดงโครงสร้าง:
* องค์ประกอบทางเรขาคณิต: จุด, เส้น, วงกลม
* ความสัมพันธ์เชิงโครงสร้าง: การอยู่บนเส้นตรงเดียวกัน, การตั้งฉาก, การสัมผัส
* ข้อจำกัดด้านโทโพโลยีและการพึ่งพา

ในการประเมิน รูปทรงเรขาคณิตจะถูกสร้างขึ้นโดยอัตโนมัติโดยโปรแกรมก่อน จากนั้นจึงเรนเดอร์เป็นภาพ ผลลัพธ์ภาษาธรรมชาติที่แบบจำลองให้ออกมาจะถูกแปลเป็นการแสดงโครงสร้าง GeoDSL และทำการจับคู่ที่แม่นยำ การออกแบบนี้มีข้อได้เปรียบสำคัญสองประการ:
1. สามารถสร้างโครงสร้างเรขาคณิตที่มีความซับซ้อนแตกต่างกันได้อย่างควบคุมได้
2. สามารถให้คะแนนระดับโครงสร้างได้อย่างแม่นยำและอัตโนมัติ

การให้คะแนนระดับองค์ประกอบโครงสร้าง

GEOPERCEIVE ใช้การแยกวิเคราะห์โครงสร้าง การจับคู่ฮังการี และการให้คะแนน F1 ระดับองค์ประกอบ ระดับความละเอียดของการประเมินเปลี่ยนจาก “คำตอบถูกต้องหรือไม่” เป็น “องค์ประกอบเรขาคณิตแต่ละชิ้น ความสัมพันธ์โครงสร้างแต่ละอย่าง ถูกจดจำอย่างแม่นยำหรือไม่” ทำให้สามารถระบุจุดบกพร่องของความสามารถของแบบจำลองในระดับการจดจำโครงสร้างได้อย่างแม่นยำ

GEODPO: เส้นทางการเพิ่มประสิทธิภาพการเรียนรู้แบบเสริมกำลังเชิงโครงสร้าง

หลังจากวินิจฉัยจุดอ่อนด้านการรับรู้รูปทรงเรขาคณิตแล้ว คำถามตามธรรมชาติคือ: จะแนะนำสัญญาณการเพิ่มประสิทธิภาพระดับโครงสร้างได้อย่างไร โดยไม่ทำลายความสามารถในการแสดงออกทางภาษาธรรมชาติของแบบจำลอง?

การกำกับดูแลแบบจำลองโดยตรงให้สร้างโปรแกรมเชิงโครงสร้าง มักนำไปสู่การเปลี่ยนแปลงการกระจาย และมีความไวสูงต่อลำดับของโทเค็น ดังนั้น ทีมวิจัยจึงเสนอ GEODPO: การเรียนรู้แบบเสริมกำลังที่ชี้นำโดยตัวแปลภาษา กระบวนการโดยรวมมีดังนี้:
แบบจำลองให้ผลลัพธ์ภาษาธรรมชาติ → ตัวแปลภาษาเฉพาะ (NL→GeoDSL) → การให้คะแนนที่แม่นยำระดับโครงสร้าง → การสร้างคู่ความชอบ → การเพิ่มประสิทธิภาพ DPO

แบบจำลองยังคงให้ผลลัพธ์เป็นภาษาธรรมชาติ แต่สัญญาณการเพิ่มประสิทธิภาพมาจากคะแนนการจับคู่โครงสร้าง วิธีนี้มีข้อได้เปรียบสามประการ:
* ไม่เปลี่ยนพื้นที่ผลลัพธ์ของแบบจำลอง
* ฟังก์ชันรางวัลสามารถอธิบายและคำนวณได้
* เป้าหมายการเพิ่มประสิทธิภาพสอดคล้องโดยตรงกับความสามารถในการจดจำโครงสร้าง

ข้อสังเกตจากการทดลอง

ทีมวิจัยได้ทำการประเมินอย่างเป็นระบบบนแบบจำลองภาษาที่ใช้การมองเห็นหลักหลายตัว

ความสามารถในการรับรู้รูปทรงเรขาคณิตเพิ่มขึ้น

แบบจำลองโครงข่ายประสาทหลักหลายตัวแสดงการปรับปรุงที่เห็นได้ชัดในการประเมิน GEOPERCEIVE
เมื่อเทียบกับการปรับแต่งอย่างละเอียดภายใต้การกำกับดูแลโดยตรง (SFT) GEODPO แสดงความเสถียรมากกว่า

ความสามารถในการปรับตัวทั่วไปนอกการกระจาย (OOD)

บนชุดทดสอบนอกการกระจาย:
* GEODPO รักษาแนวโน้มการปรับปรุงอย่างต่อเนื่อง
* SFT แสดงความผันผวนของประสิทธิภาพในบางแบบจำลอง
สิ่งนี้ชี้ให้เห็นว่ารางวัลเชิงโครงสร้างอาจมีความเสถียรที่ดีกว่าในสถานการณ์ที่มีการเปลี่ยนแปลงการกระจาย

งานการให้เหตุผลรูปทรงเรขาคณิตขั้นตอนถัดไป

ในการทดสอบมาตรฐานการให้เหตุผลรูปทรงเรขาคณิต เช่น MathVista ทีมวิจัยสังเกตว่า: เมื่อความแม่นยำในการจดจำโครงสร้างเพิ่มขึ้น ประสิทธิภาพการให้เหตุผลโดยรวมมักจะดีขึ้นพร้อมกัน ปรากฏการณ์นี้แสดงให้เห็นว่าคุณภาพของการแสดงโครงสร้างพื้นฐานอาจเป็นปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพการให้เหตุผลรูปทรงเรขาคณิต

สรุป

ทีมวิจัยได้เสนอ:
* GEOPERCEIVE: เฟรมเวิร์กการประเมินอิสระชุดแรกที่มุ่งเน้นไปที่ความสามารถในการรับรู้รูปทรงเรขาคณิต
* GEODPO: วิธีการเพิ่มประสิทธิภาพตามรางวัลเชิงโครงสร้าง

โดยการแยกการจดจำโครงสร้างเรขาคณิตออกจากงานการให้เหตุผลแบบ end-to-end อย่างชัดเจน ทีมวิจัยสามารถวิเคราะห์การกระจายความสามารถของแบบจำลองในห่วงโซ่ “การรับรู้-การให้เหตุผล” ได้ชัดเจนยิ่งขึ้น ผลการทดลองแสดงให้เห็นว่าความสามารถในการรับรู้รูปทรงเรขาคณิตเป็นหนึ่งในปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพการให้เหตุผลรูปทรงเรขาคณิต และการเรียนรู้แบบเสริมกำลังเชิงโครงสร้างให้เส้นทางการเพิ่มประสิทธิภาพที่เสถียรและสามารถอธิบายได้

ที่สำคัญกว่างานนี้ให้รูปแบบการวิจัย:
* แยกความสามารถที่ซับซ้อนออกเป็นโมดูลย่อยที่สามารถประเมินได้อย่างอิสระ
* ใช้การแสดงเชิงโครงสร้างแทนการจับคู่ภาษาที่คลุมเครือ
* ใช้ฟังก์ชันรางวัลที่คำนวณได้เพื่อชี้นำการจัดแนวความสามารถของแบบจำลอง

เนื่องจากลักษณะที่มีโครงสร้างสูงของฉากเรขาคณิต จึงเป็นทางเข้าอุดมคติสำหรับการศึกษาความสามารถในการแสดงพื้นฐานของแบบจำลองหลายรูปแบบ แนวคิดที่คล้ายกันอาจขยายไปสู่สาขาต่างๆ เช่น การแยกวิเคราะห์แบบแปลนทางวิศวกรรม การทำความเข้าใจภาพทางวิทยาศาสตร์ การจดจำโครงสร้าง CAD การสร้างแบบจำลองโครงสร้างทางการแพทย์ เป็นต้น ในกระบวนการที่แบบจำลองหลายรูปแบบก้าวไปสู่ความเข้าใจโครงสร้างที่เชื่อถือได้มากขึ้น ปัญหาทางเรขาคณิตอาจไม่ใช่เพียงแค่หนึ่งในหลายๆ งาน แต่เป็นหน้าต่างสำคัญในการทำความเข้าใจว่าแบบจำลอง “เข้าใจโครงสร้างอย่างแท้จริงหรือไม่”

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง