โมเดลขนาดใหญ่ทำโจทย์วิทยาศาสตร์ไม่ได้? งานวิจัยเผยจุดอ่อนอยู่ที่ “สายตาไม่ดี” CodePercept ใช้โค้ดปรับโฉมการรับรู้ทางภาพ

1 day ago • ข่าวสารอุตสาหกรรม AI • 33 views

เมื่อโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ (Multimodal Large Language Models) ประสบความล้มเหลวบ่อยครั้งในงานใช้เหตุผลเชิงภาพในสาขาวิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ และคณิตศาสตร์ (STEM) ความสงสัยพื้นฐานยังคงวนเวียนอยู่ในใจของนักวิจัย: โมเดลขนาดใหญ่ไม่สามารถแก้โจทย์วิทยาศาสตร์ได้ เกิดจากความบกพร่องโดยธรรมชาติของความสามารถในการใช้เหตุผล (“สมองทึบ”) หรือข้อบกพร่องในขั้นตอนการรับรู้ทางภาพ (“สายตาไม่ดี”)?

เพื่อไขปริศนานี้ ทีมวิจัยจากมหาวิทยาลัยเซี่ยงไฮ้เจียวทงและ Qwen ได้แยกงานออกเป็นสองขั้นตอนอิสระเพื่อการวิเคราะห์อย่างเป็นระบบ: ขั้นตอนการรับรู้ทางภาพ (แปลงภาพเป็นคำอธิบาย) และขั้นตอนการใช้เหตุผล (แก้ปัญหาโดยใช้เฉพาะคำอธิบายที่เป็นข้อความ) โดยการขยายความสามารถในการรับรู้และความสามารถในการใช้เหตุผลแยกกัน ในขณะที่คงความสามารถอีกอย่างหนึ่งไว้ไม่เปลี่ยนแปลง พวกเขาพบว่า: การเพิ่มประสิทธิภาพที่ได้จากการขยายความสามารถในการรับรู้นั้นดีกว่าการขยายความสามารถในการใช้เหตุผลอย่างมีนัยสำคัญเสมอ ผลลัพธ์เชิงประจักษ์นี้เผยให้เห็นข้อมูลเชิงลึกที่สำคัญ: ในขั้นตอนการพัฒนาโมเดลในปัจจุบัน ความสามารถในการรับรู้เป็นคอขวดที่แท้จริงที่จำกัดการใช้เหตุผลเชิงภาพของโมเดลขนาดใหญ่ในสาขา STEM

จากความเข้าใจอันลึกซึ้งนี้ ทีมวิจัยได้เสนอแนวทางใหม่ที่เรียกว่า CodePercept (การรับรู้ทางภาพที่ขับเคลื่อนด้วยโค้ด) ผลงานวิจัยนี้ได้รับการตอบรับให้ตีพิมพ์ในการประชุมระดับสูงสุดด้านคอมพิวเตอร์วิทัศน์ CVPR 2026 อย่างเป็นทางการ

โมเดลขนาดใหญ่ทำโจทย์วิทยาศาสตร์ไม่ได้? งานวิจัยเผยจุดอ่อนอยู่ที่ "สายตาไม่ดี" CodePercept ใช้โค้ดปรับโฉมการรับรู้ทางภาพ

ที่อยู่โอเพนซอร์ส: https://github.com/TongkunGuan/Qwen-CodePercept
ชื่อบทความ: CodePercept: Code-Grounded Visual STEM Perception for MLLMs
ลิงก์บทความ: https://arxiv.org/abs/2603.10757

ข้อมูลเชิงลึกหลัก: ทำลาย “ภาวะไร้คำบรรยาย” ของภาษาธรรมชาติ สร้างการรับรู้ใหม่ด้วยโค้ด

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการระเบิดของเทคโนโลยีการเรียนรู้แบบเสริมกำลัง นักวิจัยมักจะออกแบบกลไกการให้รางวัลที่ซับซ้อนเพื่อเพิ่มความสามารถในการใช้เหตุผลข้ามรูปแบบของโมเดลขนาดใหญ่ในสาขา STEM อย่างไรก็ตาม หลังจากที่ทีมวิจัยแยกงานใช้เหตุผลเชิงภาพใน STEM ออกเป็นสองขั้นตอนคือ “การรับรู้” และ “การใช้เหตุผล” พวกเขาได้ข้อสรุปที่สำคัญ: การเพิ่มประสิทธิภาพที่ได้จากการขยายความสามารถในการรับรู้นั้นดีกว่าการขยายความสามารถในการใช้เหตุผลเสมอ

เมื่อ “การรับรู้” เป็นจุดอ่อนที่สุด แล้วเราจะประเมินและปรับปรุงมันอย่างมีประสิทธิภาพได้อย่างไร?

จุดเจ็บปวดที่หนึ่ง: คำอธิบายด้วยภาษาธรรมชาติมีภาพหลอนและ “ภาวะไร้คำบรรยาย”

โดยสัญชาตญาณ การใช้โมเดลปิดที่ทรงพลังเพื่อสร้างคำอธิบายภาพและใช้ในการกลั่นความรู้ (Knowledge Distillation) ดูเหมือนจะเป็นทางเลือกที่ดี แต่ทีมวิจัยชี้ให้เห็นว่าภาษาธรรมชาติมีข้อบกพร่องร้ายแรงในสาขา STEM นั่นคือ “ภาวะไร้คำบรรยาย” ความสัมพันธ์เชิงพื้นที่เรขาคณิตที่ซับซ้อน พิกัดตัวเลขที่แม่นยำ เส้นเสริมที่ซับซ้อนในรูปทรงหลายหน้า ข้อมูลเหล่านี้ไม่สามารถอธิบายได้อย่างถูกต้องและสมบูรณ์ด้วยภาษาธรรมชาติเพียงอย่างเดียว และ极易引发ภาพหลอน

แนวทางแก้ไข: เพื่อตอบสนองต่อจุดเจ็บปวดนี้ ทีมวิจัยเสนอให้ใช้โค้ด Python ที่สามารถรันได้เป็นสื่อกลางในการรับรู้ทางภาพที่ทรงพลัง และปรับโครงสร้างแนวทางใหม่จากสองมิติ พวกเขาเชื่อว่าโค้ดในฐานะสื่อกลาง สามารถเพิ่มความสามารถในการรับรู้ทางภาพของโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบได้อย่างมีนัยสำคัญผ่านงานสองงานที่ใช้โค้ดเป็นฐาน:

การสร้างคำอธิบายที่ขับเคลื่อนด้วยโค้ด: ใช้โค้ดที่รันได้เป็น “ป้ายกำกับจริง” สำหรับการสร้างคำอธิบายภาพ เพื่อขจัดข้อผิดพลาดในคำอธิบายที่สร้างโดย AI อย่างมีประสิทธิภาพ
การถอดรหัสภาพ STEM เป็นโค้ด: ฝึกโมเดลโดยตรงให้สร้างโค้ดสำหรับการสร้างภาพขึ้นมาใหม่ที่รันได้ เพื่อขจัดความคลุมเครือที่มีอยู่ในคำอธิบายภาษาธรรมชาติอย่างสิ้นเชิง

จุดเจ็บปวดที่สอง: ระบบประเมินผลที่มีอยู่ไม่สามารถแยก “การรับรู้” และ “การใช้เหตุผล” ออกจากกันได้

การทดสอบมาตรฐานที่มีอยู่ เช่น MathVista, MathVerse และ MathVision มักจะประเมินความสามารถของโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบผ่านความแม่นยำในการแก้ปัญหาของงานสุดท้าย การทำเช่นนี้实际上将การรับรู้ความเข้าใจในสาขา STEM และความสามารถในการใช้เหตุผลปะปนกัน เมื่อโมเดลล้มเหลว เราไม่สามารถ判断ว่าความล้มเหลวนั้นเกิดจากข้อบกพร่องในการรับรู้หรือความสามารถในการใช้เหตุผลไม่เพียงพอ แม้ว่างานวิจัยล่าสุดจะใช้รูปแบบการประเมินแบบสองขั้นตอน (สร้างคำอธิบายภาพก่อน จากนั้นให้โมเดลภาษาแก้ปัญหา) เพื่อแยกความสามารถในการรับรู้ของโมเดล แต่ตัวชี้วัดนี้สะท้อนเฉพาะความสามารถของโมเดลในการทำความเข้าใจข้อมูลที่เกี่ยวข้องกับปัญหาเท่านั้น ไม่ใช่ความสามารถในการรับรู้ทางภาพที่ครอบคลุม เพื่อชดเชยข้อบกพร่องนี้ เราจึงเสนอรูปแบบการประเมินที่แน่นอนและตรวจสอบได้ รูปแบบนี้กำหนดให้โมเดลสร้างโค้ด Python ที่รันได้ซึ่งสามารถสร้างภาพต้นฉบับขึ้นมาใหม่อย่างซื่อสัตย์ เฉพาะเมื่อโมเดลบรรลุความเข้าใจทางภาพที่สมบูรณ์และแม่นยำเท่านั้น จึงจะสามารถสร้างภาพต้นฉบับขึ้นมาใหม่ได้สำเร็จและมีความเที่ยงตรงสูง

แนวทางแก้ไข: เพื่อตอบสนองต่อจุดเจ็บปวดนี้ ทีมวิจัยเชื่อว่าการกำหนดให้โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบสร้างโค้ด Python ที่รันได้สำหรับการสร้างภาพขึ้นมาใหม่ สามารถตรวจสอบความสามารถในการรับรู้ได้อย่างเข้มงวดที่สุด หลักการนี้ง่ายและทรงพลัง: เฉพาะเมื่อโมเดลเข้าใจข้อมูลภาพอย่างสมบูรณ์เท่านั้น จึงจะสามารถสร้างภาพขึ้นมาใหม่ได้อย่างแม่นยำ

จากหลักการนี้ พวกเขาได้เปิดตัว STEM2Code-Eval: การทดสอบมาตรฐานที่标注ด้วยมือจำนวน 1,000 ภาพ การทดสอบนี้มีวัตถุประสงค์เพื่อ检验ความสามารถของโมเดลในการสร้างโค้ด Python ที่รันได้สำหรับการสร้างภาพขึ้นมาใหม่ ซึ่งจะช่วยให้ประเมินความสามารถในการรับรู้ทางภาพได้อย่างแน่นอนและตรวจสอบได้

รากฐานข้อมูล: ชุดข้อมูลสามเท่า ICC-1M ระดับล้าน

เพื่อให้โค้ดกลายเป็นสื่อกลางในการรับรู้ที่มีประสิทธิภาพ ทีมวิจัยได้สร้างชุดข้อมูล ICC-1M ซึ่งประกอบด้วยสามเท่าคุณภาพสูงจำนวน 1 ล้านชุด ได้แก่ ภาพ-คำอธิบาย-โค้ด ชุดข้อมูลนี้ถูกสังเคราะห์ขึ้นผ่านท่อส่งนวัตกรรมสามประการ:

การสร้างภาพขึ้นมาใหม่: แปลงภาพ STEM ที่มีอยู่ให้เป็นโค้ด Python ที่รันได้อย่างแม่นยำ
การทำให้ภาพหลากหลาย: สกัดหลักการ STEM หลักจากภาพต้นแบบ และสร้าง实例ใหม่ในบริบทภาพที่แตกต่างกัน ทำให้เกิดภาพที่หลากหลายและแปลกใหม่อย่างยิ่ง
การสังเคราะห์เรขาคณิตสามมิติ: มุ่งเน้นไปที่จุดอ่อนของโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบในปัจจุบันเกี่ยวกับความสัมพันธ์เชิงพื้นที่ของเรขาคณิตสามมิติ โดยพัฒนาท่อส่งโค้ดเรขาคณิตสามมิติที่ใช้เทมเพลต

ข้อมูลทั้งหมดต้องผ่านการควบคุมคุณภาพแบบรวมสามขั้นตอนที่เข้มงวด (รวมถึงการตรวจสอบคุณภาพภาพ คุณภาพโค้ด และความสอดคล้องระหว่างภาพกับโค้ด) เพื่อให้แน่ใจว่าสัญญาณการฝึกมีความแม่นยำอย่างแท้จริง

เครื่องยนต์คู่สำหรับการฝึก: งานเรียนรู้ “ที่ขับเคลื่อนด้วยโค้ด” สองงาน

จากชุดข้อมูล ICC-1M CodePercept เสนองานฝึกอบรมที่บุกเบิกสองงานเพื่อเพิ่มความสามารถในการรับรู้อย่างเป็นระบบ:

การสร้างคำอธิบายที่ขับเคลื่อนด้วยโค้ด: ถือว่าโค้ดที่รันได้เป็น “ความจริงสัมบูรณ์” ของคำอธิบายภาพ ใช้ข้อเท็จจริงที่แน่นอนจากการวิเคราะห์โค้ด (เช่น พิกัด จำนวน) เพื่อเขียนใหม่ ขจัดภาพหลอนเกี่ยวกับตัวเลขและเรขาคณิตที่มีอยู่ในโมเดลภาษาภาพแบบดั้งเดิมอย่างสิ้นเชิง
การถอดรหัสภาพ STEM เป็นโค้ด: นำโมเดลขนาดใหญ่โดยตรงให้สร้าง “โค้ดสร้างภาพขึ้นมาใหม่พร้อมคำอธิบาย” ที่มีคำอธิบายประกอบโดยละเอียด สิ่งนี้ไม่เพียงขจัดความคลุมเครือของคำอธิบายภาษาธรรมชาติ แต่ยังบังคับให้โมเดลเข้าใจความสัมพันธ์การ映射ภายในระหว่าง “ลักษณะที่สังเกตได้” และ “ส่วนของโค้ด” อย่างลึกซึ้ง

ในด้านกลยุทธ์การฝึก ทีมงานใช้วิธีการเรียนรู้แบบสองขั้นตอน:

ขั้นตอนที่หนึ่ง: การปรับแต่งแบบมีผู้สอน (Supervised Fine-Tuning) เนื่องจากโค้ด本质上是一种格式化的描述 ดังนั้นจึงปรับแต่งงานภาพเป็นคำอธิบายและภาพเป็นโค้ดร่วมกัน เพื่อให้โมเดลสร้างความสามารถในการรับรู้ที่แข็งแกร่ง
ขั้นตอนที่สอง: การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) เนื่องจากอัตราความคลาดเคลื่อนในการสร้างโค้ดต่ำมาก ทีมงานจึง引入了 GRPO Reinforcement Learning เพื่อปรับแต่งการสร้างโค้ดโดยเฉพาะ โมเดลไม่เพียงต้องได้รับ “รางวัลรูปแบบ” แต่ยังต้องผ่าน “รางวัลการดำเนินการเนื้อหา” และ “รางวัลความคล้ายคลึงระหว่างภาพกับโค้ด” ที่เข้มงวดยิ่งขึ้น เพื่อให้บรรลุการก้าวกระโดดแบบ指数级ของความสามารถผ่านการลองผิดลองถูกอย่างต่อเนื่อง

การประเมินผลที่เข้มข้นและผลลัพธ์ที่น่าทึ่ง

การประเมินแบบดั้งเดิมมักใช้ “ความถูกต้องในการแก้ปัญหา” เพื่อวัดการรับรู้ ซึ่งไม่เพียงมีข้อผิดพลาด แต่ยัง容易遗漏รายละเอียดภาพที่ไม่ได้ถูกทดสอบ ด้วยเหตุนี้ ทีมวิจัยจึง推出了 STEM2Code-Eval Benchmark ซึ่งเป็นเกณฑ์การประเมินที่มีภาพที่ผ่านการตรวจสอบอย่างพิถีพิถันจำนวน 1,000 ภาพ เกณฑ์นี้กำหนดให้โมเดลสร้างโค้ด Python โดยตรงเพื่อ还原ภาพต้นฉบับ 100% ซึ่งให้底线การประเมินการรับรู้ทางภาพที่แน่นอนและตรวจสอบได้มากที่สุด

ผลการทดลองบนสถาปัตยกรรม Qwen3-VL น่าทึ่งมาก:

ประสิทธิภาพด้านการแก้ปัญหา (Captioner-Solver): เมื่อใช้ตัวแก้ปัญหาแบบใช้เหตุผลเดียวกัน CodePercept-8B-S1 เอาชนะยักษ์ใหญ่โอเพนซอร์ส Qwen2.5-VL-72B ที่มีพารามิเตอร์มากกว่าอย่างมีนัยสำคัญ (优势达 6.2%) และ甚至逼近了 Claude-Opus 4.1-Thinking และ GPT5-Thinking ซึ่งเป็นโมเดลปิด前沿

ประสิทธิภาพการสร้างภาพขึ้นมาใหม่ (STEM2Code-Eval): ในงาน还原ภาพที่纯粹考查ความสามารถในการรับรู้ CodePercept-8B-R1 ที่ผ่านการปรับแต่งด้วยการเรียนรู้แบบเสริมกำลัง ได้คะแนน 63.56 คะแนน (เพิ่มขึ้น 3.92 คะแนนจากฐาน) เอาชนะโมเดลเรือธงที่มีพารามิเตอร์ขนาดใหญ่อย่าง Seed 1.6-Vision และ Qwen3-VL-Plus อย่าง全面

บทสรุป

การเกิดขึ้นของ CodePercept ไม่เพียงแต่เป็นสัญลักษณ์ของการเกิดของโมเดลใหม่ แต่ยังประกาศเส้นทางใหม่สำหรับโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบในการแก้ปัญหาทางวิทยาศาสตร์ที่ซับซ้อน: เฉพาะเมื่อติดตั้ง “ดวงตาที่แหลมคม” ที่ใช้ตรรกะของโค้ดให้กับโมเดลขนาดใหญ่ ประตูแห่งการใช้เหตุผลที่ซับซ้อนอย่างแท้จริงจึงจะถูกเปิดออกอย่างสมบูรณ์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง