
บทความนี้แนะนำผลงานวิจัยจากมหาวิทยาลัยฟู่ตานและห้องปฏิบัติการชีวิตอนาคตอาลีบาบา ซึ่งงานนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว
ปัจจุบัน วิธีการให้เหตุผลเชิงภาพ (Visual Reasoning) ได้พัฒนาออกมาเป็นสองรูปแบบการคิดหลัก: รูปแบบหนึ่งคือการคิดด้วยข้อความล้วน ซึ่งสอดคล้องกับโมเดลภาษาขนาดใหญ่ (LLM) อีกรูปแบบหนึ่งคือการคิดเชิงภาพ ซึ่งใกล้เคียงกับลักษณะของภาพเองมากขึ้น ทั้งสองรูปแบบนี้มีข้อดีในงานที่แตกต่างกัน แต่งานวิจัยที่มีอยู่มักมุ่งเน้นเพียงรูปแบบเดียว และยังไม่ได้ใช้ประโยชน์จากความเสริมกันระหว่างทั้งสองรูปแบบอย่างเต็มที่
เพื่อแก้ไขปัญหานี้ บทความนี้เสนอกรอบการให้เหตุผลแบบปรับตัวได้ที่เรียกว่า Mixture-of-Visual-Thoughts เป้าหมายหลักคือการรวมรูปแบบการให้เหตุผลที่แตกต่างกันไว้ในโมเดลเดียว และชี้นำให้โมเดลเลือกรูปแบบการให้เหตุผลที่เหมาะสมที่สุดตามปัญหาที่เจอโดยอัตโนมัติ เพื่อให้บรรลุเป้าหมายนี้ นักวิจัยได้ออกแบบกรอบการเรียนรู้สองขั้นตอนชื่อ AdaVaR: ขั้นแรก ใช้การปรับแต่งแบบมีผู้สอน (Supervised Fine-Tuning) เพื่อให้โมเดลเรียนรู้รูปแบบการให้เหตุผลที่แตกต่างกัน จากนั้น ออกแบบอัลกอริทึมการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) เฉพาะที่ชื่อ AdaGRPO เพื่อชี้นำให้โมเดลเรียนรู้วิธีเลือกรูปแบบการให้เหตุผลตามบริบทของปัญหา

- ชื่อบทความ: Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
- ลิงก์บทความ: https://arxiv.org/pdf/2509.22746
- ลิงก์โค้ด: https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
- ดาวน์โหลดโมเดล: https://huggingface.co/collections/ZejunLi/adavar-models
ภูมิหลัง: รูปแบบการคิดที่แตกต่างกันในการให้เหตุผลเชิงภาพ
ปัจจุบัน มีการสำรวจวิธีการให้เหตุผลเชิงภาพสำหรับโมเดลภาษาขนาดใหญ่ที่ประมวลผลภาพและภาษา (Large Vision-Language Models) อย่างกว้างขวาง กรอบการให้เหตุผลหลักประกอบด้วยสองรูปแบบต่อไปนี้:

รูปที่ 1: การเปรียบเทียบโดยสังเขปของสองรูปแบบการให้เหตุผล
- รูปแบบการคิดด้วยข้อความล้วน: สอดคล้องกับ LLM ใช้คำอธิบายกระบวนการให้เหตุผลด้วยภาษาธรรมชาติทั้งหมด
- รูปแบบการคิดเชิงภาพ: ใช้ข้อมูลที่มีโครงสร้าง (เช่น พิกัดกรอบสี่เหลี่ยม) เพื่อเชื่อมโยงแนวคิดสำคัญในกระบวนการให้เหตุผลกับพื้นที่เฉพาะในภาพ ยิ่งไปกว่านั้น สามารถตัดและปรับขนาดพื้นที่เฉพาะส่วนที่เกี่ยวข้องแล้วป้อนเข้าสู่โมเดล เพื่อช่วยให้โมเดลใช้ข้อมูลภาพที่มีรายละเอียดมากขึ้น ซึ่งคล้ายกับแนวคิด “คิดด้วยภาพ” ที่กล่าวถึงใน GPT-4o
การออกแบบที่แตกต่างกันของทั้งสองรูปแบบนี้ ทำให้แสดงข้อดีข้อเสียต่างกันในงานที่แตกต่างกัน ตัวอย่างต่อไปนี้ใช้โมเดลการให้เหตุผลที่สร้างจาก Qwen2.5-VL-7B (ค่าบวก/ลบ แสดงถึงการเพิ่มขึ้น/ลดลงของประสิทธิภาพเมื่อเทียบกับโมเดลฐาน):

รูปที่ 2: การเปลี่ยนแปลงประสิทธิภาพของโมเดลรูปแบบการให้เหตุผลต่างๆ ที่สร้างจาก Qwen2.5-VL-7B เมื่อเทียบกับโมเดลฐาน
- รูปแบบการคิดด้วยข้อความ ถนัดในการจัดการปัญหาภาพเชิงนามธรรม (เช่น โจทย์คณิตศาสตร์เรขาคณิต) มากกว่า แต่สามารถเกิดภาพหลอน (Hallucination) ได้ และมีประสิทธิภาพไม่ดีในงานที่ต้องการการค้นหาภาพ (มีปัญหาการคิดมากเกินไปและอคติทางภาษา)
- รูปแบบการคิดเชิงภาพ ถนัดในการระบุตำแหน่งและใช้ข้อมูลภาพที่เป็นรูปธรรม สามารถยับยั้งภาพหลอนได้อย่างมีประสิทธิภาพ แต่การปรับปรุงมีจำกัดเมื่อจัดการกับปัญหาคณิตศาสตร์เชิงนามธรรม (สำหรับแนวคิดเชิงนามธรรม เช่น มุม ขนาด การระบุตำแหน่งเชิงภาพให้ข้อมูลที่มีประโยชน์ได้ยาก)
จากแรงบันดาลใจนี้ บทความนี้มุ่งสำรวจคำถามหลัก: เราสามารถรวมข้อดีที่เสริมกันของรูปแบบการคิดที่แตกต่างกันในโดเมนต่างๆ เข้าด้วยกัน เพื่อเพิ่มความสามารถในการให้เหตุผลเชิงภาพทั่วไปของโมเดลได้หรือไม่?
Mixture-of-Visual-Thoughts: กรอบการให้เหตุผลเชิงภาพแบบปรับตัวได้
จากแนวคิดข้างต้น บทความนี้เสนอ Mixture-of-Visual-Thoughts หรือเรียกสั้นๆ ว่า MoVT นี่คือกรอบการให้เหตุผลเชิงภาพแบบปรับตัวได้ มีจุดมุ่งหมายเพื่อสร้างโมเดลการให้เหตุผลแบบรวมศูนย์ที่สามารถ: (1) มีรูปแบบการคิดที่หลากหลาย; (2) เลือกรูปแบบที่เหมาะสมที่สุดตามปัญหาโดยอัตโนมัติ
เพื่อเป็นการสำรวจเบื้องต้นของกรอบ MoVT นักวิจัยได้เสนอกรอบการเรียนรู้ AdaVaR ผ่านการฝึกสองขั้นตอนเพื่อสร้างโมเดลที่มีความสามารถในการให้เหตุผลแบบปรับตัวได้:
- การรวมรูปแบบ: ที่จุดเริ่มต้นของลำดับการให้เหตุผล จะเพิ่มโทเค็นพิเศษนำหน้า (Special Prefix Token) ที่สอดคล้องกับรูปแบบต่างๆ เช่น
<text>,<ground>เพื่อใช้เป็นตัวบ่งชี้ช่วยให้โมเดลแยกแยะรูปแบบการให้เหตุผล จากนั้นใช้การปรับแต่งแบบมีผู้สอนกับข้อมูลที่รวมกัน เพื่อให้โมเดลเรียนรู้รูปแบบการคิดที่แตกต่างกัน - การเลือกรูปแบบ: ออกแบบอัลกอริทึมการเรียนรู้แบบเสริมกำลัง AdaGRPO เพื่อชี้นำให้โมเดลเลือกรูปแบบ ขั้นตอนหลักคือ: i. โดยการกำหนดโทเค็นนำหน้ารูปแบบให้คงที่ ชี้นำให้โมเดลใช้รูปแบบการคิดที่แตกต่างกันสร้างเส้นทางการให้เหตุผลหลายเส้นสำหรับปัญหาเดียวกัน; ii. ออกแบบวิธีการคำนวณค่า Advantage (ความได้เปรียบ) เฉพาะ: ทั้งการคำนวณ Advantage ในระดับเส้นทางเพื่อเพิ่มความสามารถในการให้เหตุผลของโมเดล และการคำนวณ Advantage สัมพัทธ์ระหว่างรูปแบบ เพื่อชี้นำให้โมเดลเลือกรูปแบบการคิดที่ดีกว่า
รายละเอียดและคำอธิบายของวิธีการเฉพาะจะกล่าวถึงในส่วนถัดไป
นักวิจัยได้ทำการประเมินบนชุดข้อมูลหลายชุดในหลายสถานการณ์ ดังแสดงในรูปที่ 2 ต่างจากโมเดลรูปแบบเดียวที่โดดเด่นเฉพาะในบางสถานการณ์ โมเดล AdaVaR แสดงการปรับปรุงประสิทธิภาพที่สม่ำเสมอในงานหลายอย่าง จากประสิทธิภาพเฉลี่ยของชุดข้อมูล 8 ชุด โมเดล AdaVaR-3B สามารถเทียบเคียงกับ Qwen2.5-VL-7B ได้ ในขณะที่ประสิทธิภาพของโมเดล AdaVaR-7B ดีกว่า GPT-4o เสียอีก
AdaVaR: วิธีการรวมและฝึกฝนรูปแบบการคิด
รวมรูปแบบการคิดที่แตกต่างกันด้วยโทเค็นนำหน้า
ขั้นแรก เป้าหมายของนักวิจัยคือให้รูปแบบการคิดหลายรูปแบบอยู่ร่วมกันในโมเดลเดียว เพื่อจุดประสงค์นี้ พวกเขาออกแบบรูปแบบลำดับการให้เหตุผลแบบรวมศูนย์ โดยใช้โทเค็นนำหน้ารูปแบบพิเศษเพื่อแยกแยะรูปแบบต่างๆ:

โดยส่วนสีน้ำเงินคือโทเค็นนำหน้ารูปแบบ ส่วนสีแดงคือกระบวนการคิดที่สอดคล้องกัน ภายใต้การสร้างแบบออโตรีเกรสซีฟ (Autoregressive Generation) การสร้างลำดับการให้เหตุผลเช่นนี้เทียบเท่ากับการดำเนินการสองขั้นตอนในการสร้างครั้งเดียว: (1) สร้างโทเค็นนำหน้าตามปัญหา เพื่อทำการเลือกรูปแบบ; (2) คิดตามรูปแบบที่เลือก การเพิ่มโทเค็นนำหน้ารูปแบบไม่เพียงช่วยให้โมเดลแยกแยะรูปแบบต่างๆ แต่ยังสนับสนุนการแทรกแซงรูปแบบการคิดในอัลกอริทึมการเรียนรู้แบบเสริมกำลังในภายหลัง
จากรูปแบบรวมศูนย์นี้ นักวิจัยรวบรวมข้อมูลที่สอดคล้องกับสองรูปแบบเพื่อปรับแต่งโมเดลแบบมีผู้สอน ทำให้โมเดลมีความสามารถเบื้องต้นในการคิดด้วยสองรูปแบบ
AdaGRPO: ชี้นำให้โมเดลเลือกรูปแบบ
ต่อไป นักวิจัยหวังว่าโมเดลจะสามารถเลือกรูปแบบการให้เหตุผลที่เหมาะสมตามปัญหาโดยอัตโนมัติ พวกเขาทำการเรียนรู้นี้ในสภาพแวดล้อมการเรียนรู้แบบเสริมกำลัง แนวคิดหลักคือ: สำหรับปัญหาเดียวกัน โมเดลจะใช้สองรูปแบบสร้างเส้นทางการให้เหตุผลรูปแบบละ n เส้น คล้ายกับวิธีอื่นๆ นักวิจัยใช้ความถูกต้องของคำตอบเป็นแนวทาง ใช้การตัดสินถูกผิดตามกฎเป็นสัญญาณรางวัล จากนั้น ออกแบบวิธีการคำนวณค่า Advantage แบบสองระดับโดยอิงจากการเปรียบเทียบระหว่างเส้นทางและระหว่างรูปแบบ เพื่อส่งเสริมให้โมเดลสร้างเส้นทางการให้เหตุผลที่ดีขึ้น และเลือกรูปแบบการคิดที่ดีกว่าในเวลาเดียวกัน

รูปที่ 3: การเปรียบเทียบระหว่าง AdaGRPO กับ GRPO
เพื่อจุดประสงค์นี้ นักวิจัยออกแบบ AdaGRPO บนพื้นฐานของ GRPO โดยปรับปรุงหลักดังต่อไปนี้:
- การสำรวจแบบชี้นำด้วยคำนำหน้า: กระบวนการสร้างเส้นทางใน GRPO เป็นอิสระ ซึ่งอาจนำไปสู่การสำรวจรูปแบบที่ไม่สมดุล (เช่น เส้นทางทั้งหมดที่สร้างสำหรับปัญหาเดียวกันมาจากรูปแบบเดียวกัน) ใน AdaGRPO นักวิจัยกำหนดโทเค็นนำหน้ารูปแบบให้คงที่ บังคับให้เส้นทาง n แรกและเส้นทาง n หลังที่โมเดลสร้างมาจากรูปแบบการคิดด้วยข้อความและรูปแบบการคิดเชิงภาพตามลำดับ
- การคำนวณค่า Advantage แบบปรับตัวได้: GRPO คำนวณเฉพาะค่า Advantage ในระดับเส้นทาง A_i = (r_i – Mean) / Std เพื่อเพิ่มความสามารถในการให้เหตุผล และกำหนดค่า Advantage เดียวกันให้กับโทเค็นทั้งหมดในเส้นทาง เพื่อชี้นำการเลือกรูปแบบอย่างชัดเจน AdaGRPO ออกแบบดังนี้:
- a. เพิ่ม Advantage สัมพัทธ์ระหว่างรูปแบบ: ใช้ความน่าจะเป็นชนะสัมพัทธ์ (Relative Win Rate) อธิบาย Advantage สัมพัทธ์ระหว่างสองรูปแบบ A_t และ A_v (เช่น A_t แสดงถึงความน่าจะเป็นที่รางวัลที่ได้จากรูปแบบการให้เหตุผลด้วยข้อความสำหรับปัญหานี้สูงกว่ารูปแบบเชิงภาพ และในทางกลับกัน)
b. กลยุทธ์การกำหนดฟังก์ชัน Advantage
ดังที่กล่าวไว้ในส่วนก่อนหน้า โทเค็นนำหน้ารูปแบบและกระบวนการคิดมีบทบาทต่างกันในลำดับการให้เหตุผล ดังนั้น ในอัลกอริทึม AdaGRPO เราจึงกำหนด Advantage ที่แตกต่างกันให้กับโทเค็นที่แตกต่างกัน: กำหนด Advantage (A_t) และ (A_v) ให้กับโทเค็นนำหน้ารูปแบบ เพื่อส่งเสริมให้โมเดลทำการเลือกรูปแบบที่เหมาะสม; กำหนด Advantage (A_i) ให้กับโทเค็นในกระบวนการคิด เพื่อเพิ่มความสามารถในการให้เหตุผลของโมเดลโดยตรง
การสร้างข้อมูลการเรียนรู้แบบค่อยเป็นค่อยไป
เรายังออกแบบกลยุทธ์การเรียนรู้แบบค่อยเป็นค่อยไป (Curriculum Learning) เพื่อสร้างข้อมูลฝึก ในการฝึกช่วงแรก โมเดลเรียนรู้บนชุดข้อมูลผสมที่ง่าย (เช่น โจทย์เรขาคณิตและงานนับวัตถุ) เมื่อการฝึกดำเนินไป ข้อมูลจะค่อยๆ เปลี่ยนเป็นชุดผสมของงานที่ซับซ้อนหลายงาน และความยากของโจทย์จะเพิ่มขึ้นจากง่ายไปยาก กลยุทธ์นี้มีจุดมุ่งหมายเพื่อชี้นำให้โมเดลค่อยๆ เรียนรู้ความสามารถในการให้เหตุผลจากง่ายไปซับซ้อน และเรียนรู้ที่จะเลือกรูปแบบการให้เหตุผลที่เหมาะสมตามงานต่างๆ โดยอัตโนมัติ
ผลการทดลอง
เราสร้างโมเดล AdaVaR-3B และ AdaVaR-7B ที่สอดคล้องกันบนพื้นฐานของโมเดล Qwen2.5-VL-3B และ Qwen2.5-VL-7B บนชุดข้อมูลมาตรฐาน 8 ชุด เราเปรียบเทียบอย่างครอบคลุมกับวิธีการให้เหตุผลอื่นๆ ที่สร้างจากโมเดลฐานเดียวกัน

ตารางที่ 1: การเปรียบเทียบประสิทธิภาพของโมเดลต่างๆ พื้นหลังสีเหลืองหมายถึงโมเดลการให้เหตุผลด้วยข้อความล้วน พื้นหลังสีเขียวหมายถึงโมเดลการให้เหตุผลแบบ Grounded ที่ใช้ภาพ พื้นหลังสีน้ำเงินหมายถึงโมเดล AdaVaR ที่เสนอในบทความนี้
ผลการทดลองหลักมีดังนี้:
-
ข้อจำกัดของโมเดลรูปแบบเดียว: ผลการทดลองยืนยันการกล่าวถึงในส่วนภูมิหลังว่าโมเดลที่พึ่งพารูปแบบการคิดรูปแบบเดียวมักเป็นผู้เชี่ยวชาญเฉพาะด้าน และยากที่จะได้รับประสิทธิภาพทั่วไปที่เพิ่มขึ้น กล่าวคือ:
- โมเดลการให้เหตุผลด้วยข้อความ (เช่น VLAA-Thinker-3B และ OVR-7B) ทำได้ดีในงานคณิตศาสตร์ แต่มีประสิทธิภาพไม่ดีในปัญหาที่เกี่ยวข้องกับการระบุและระบุตำแหน่งวัตถุ
- โมเดลการให้เหตุผลแบบ Grounded ทำได้ดีในชุดข้อมูลคำถามตอบภาพ เช่น V* และ POPE แต่โดยทั่วไปไม่ดีในงานคณิตศาสตร์ ยกเว้น DeepEyes โมเดลอื่นๆ ล้วนรักษาความสามารถในการให้เหตุผลทางคณิตศาสตร์เดิมของโมเดลฐานได้ยาก
-
ข้อได้เปรียบโดยรวมของ AdaVaR: AdaVaR-3B และ AdaVaR-7B เป็นตัวแปรเดียวที่เหนือกว่าโมเดลฐาน Qwen2.5-VL ในทุกงานที่ประเมิน ทำได้ดีที่สุดในชุดข้อมูลเช่น MathVista, WeMath, POPE และทำได้ดีที่สุดหรือรองลงมาใน MMStar และ MathVision
-
นำด้านประสิทธิภาพโดยรวม: จากความแม่นยำเฉลี่ย AdaVaR-3B/7B เป็นตัวที่ดีที่สุดในกลุ่มพารามิเตอร์ของตัวเอง AdaVaR-3B เป็นโมเดล 3B เดียวที่ถึงระดับ Qwen2.5-VL-7B ในขณะที่ประสิทธิภาพเฉลี่ยของ AdaVaR-7B ดีกว่า GPT-4o เสียอีก
การวิเคราะห์เชิงลึกเกี่ยวกับกลไกการให้เหตุผลแบบปรับตัวได้
เพื่อทำความเข้าใจกลไกการทำงานของการให้เหตุผลแบบปรับตัวได้อย่างลึกซึ้ง เราสำรวจคำถามสำคัญต่อไปนี้เพิ่มเติม:

ตารางที่ 2: ประสิทธิภาพของโมเดลในรูปแบบต่างๆ และในขั้นตอนการฝึกที่แตกต่างกัน ตัวห้อย T และ G แทนการใช้งานรูปแบบข้อความและรูปแบบ Grounded ตามลำดับ GRD% แทนส
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23030
