การวิจัยร่วมของมหาวิทยาลัยชิงหวา ปักกิ่ง และเทนเซนต์: กรอบ GTR แก้ปัญหาการ ‘ล่มสลายของความคิด’ ในการฝึกตัวแทน VLM

2026年3月13日 pm1:01 • การฝึกโมเดลขนาดใหญ่ • 217 views

ผู้เขียนคนแรกของบทความวิจัยคือ Wei Tong นักศึกษาปริญญาเอกที่กำลังศึกษาอยู่ที่มหาวิทยาลัย Tsinghua โดยมีทิศทางการวิจัยเกี่ยวกับเอเจนต์โมเดลขนาดใหญ่และการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) อาจารย์ที่ปรึกษาคือ Xing Junliang และ Shi Yuanchun ผู้เขียนร่วมคนแรกคือ Yang Yijun จาก Tencent ผู้ร่วมวิจัยคือ Lu Zongqing จากมหาวิทยาลัยปักกิ่ง และผู้เขียนติดต่อคือ Ye Deheng

การเรียนรู้แบบเสริมกำลังด้วยรางวัลที่สามารถตรวจสอบได้ (Reinforcement Learning with Verifiable Reward, RLVR) สามารถเพิ่มประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ในงานตัดสินใจที่ใช้กระบวนการคิดแบบลูกโซ่ (Chain-of-Thought, CoT) ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม สำหรับเอเจนต์โมเดลขนาดใหญ่แบบหลายรูปแบบ (Vision-Language Model, VLM) ที่มุ่งเน้นงานการให้เหตุผลเชิงเป้าหมายเพื่อการกระทำ การเรียนรู้แบบเสริมกำลังกลับทำให้ยากที่จะเพิ่มประสิทธิภาพความสามารถในการตัดสินใจในปัญหาที่ซับซ้อน และอาจนำไปสู่การถดถอยของกระบวนการคิดได้

ทีมวิจัยจากมหาวิทยาลัย Tsinghua, มหาวิทยาลัยปักกิ่ง และ Tencent ได้ศึกษาปรากฏการณ์ “การล่มสลายของความคิด” (thought collapse) นี้อย่างลึกซึ้ง ผลการศึกษาพบว่า เนื่องจากข้อเสนอแนะจากการฝึกโมเดลอาศัยเพียงการกระทำขั้นสุดท้าย การเรียนรู้แบบเสริมกำลังจึงไม่สามารถควบคุมกระบวนการคิดแบบ CoT ได้อย่างมีประสิทธิภาพ ส่งผลให้กระบวนการคิดของเอเจนต์ VLM ถดถอย สูญเสียความหลากหลาย และให้ผลลัพธ์การให้เหตุผลที่ไม่สอดคล้องกันและไม่สมบูรณ์

การวิจัยร่วมของมหาวิทยาลัยชิงหวา ปักกิ่ง และเทนเซนต์: กรอบ GTR แก้ปัญหาการ 'ล่มสลายของความคิด' ในการฝึกตัวแทน VLM

เพื่อแก้ไขปัญหาการล่มสลายของความคิด ทีมวิจัยได้เสนอกรอบการเรียนรู้แบบเสริมกำลังด้วยการชี้นำความคิด (Guided Thought Reinforcement, GTR) กรอบนี้ให้คำแนะนำในกระบวนการผ่านตัวแก้ไขอัตโนมัติ เพื่อปรับปรุงแนวทางการให้เหตุผลของโมเดลแบบเรียลไทม์ระหว่างการฝึกการเรียนรู้แบบเสริมกำลัง โดยไม่จำเป็นต้องพึ่งพาข้อมูลที่ติดป้ายกำกับโดยมนุษย์อย่างละเอียด ในงานเกมไพ่ที่ยากและงานปัญญาประดิษฐ์เชิงรูปธรรม (embodied AI) เอเจนต์ที่สร้างจาก LLaVA-7B ซึ่งมีขนาดค่อนข้างเล็ก สามารถบรรลุประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับวิธีที่ดีที่สุดในปัจจุบัน (State-of-the-Art, SOTA)

ชื่อบทความวิจัย: GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2503.08525

1. ปรากฏการณ์ “การล่มสลายของความคิด” ส่งผลต่อประสิทธิภาพการฝึก RLVR

แตกต่างจากการฝึกเอเจนต์แบบข้อความล้วน ในสภาพแวดล้อมเชิงภาพแบบโต้ตอบที่มีการนำข้อมูลหลายรูปแบบเข้ามาและความซับซ้อนของกระบวนการตัดสินใจเพิ่มขึ้น การใช้การเรียนรู้แบบเสริมกำลังเพื่อฝึกเอเจนต์ VLM นั้นยากยิ่งกว่า ปรากฏการณ์ “การล่มสลายของความคิด” แสดงออกหลักๆ ดังนี้:

สูญเสียความหลากหลายของความคิด: กระบวนการ CoT ของเอเจนต์สูญเสียความหลากหลาย ให้แนวทางการให้เหตุผลที่เหมือนหรือคล้ายกันสำหรับอินพุตภาพและข้อความที่แตกต่างกัน
คุณภาพความคิดถดถอย: แนวทางที่โมเดลให้ออกมาไม่ถูกต้อง ไม่สอดคล้องกัน หรือไม่สมบูรณ์ แม้ว่าจะให้ผลลัพธ์แนวทางในรูปแบบ แต่ได้สูญเสียความสามารถในการคิดที่มีประสิทธิภาพไปแล้ว
ความสามารถในการตัดสินใจถูกจำกัด: การสูญเสียความสามารถในการคิดจำกัดความสามารถในการตัดสินใจขั้นสุดท้ายของโมเดลอย่างมาก ทำให้ยากที่จะปลดปล่อยศักยภาพของโมเดลได้อย่างเต็มที่

การทดลองแสดงให้เห็นว่า แม้จะใช้โมเดลที่ใหญ่ขึ้นหรือเวลาฝึกที่ยาวนานขึ้น ปรากฏการณ์การล่มสลายของความคิดก็ยังคงอยู่ สาเหตุหลักอยู่ที่กลไกการฝึกการเรียนรู้แบบเสริมกำลัง:

รางวัลที่สภาพแวดล้อมให้ขึ้นอยู่กับการกระทำขั้นสุดท้ายของโมเดลโดยสิ้นเชิง
กระบวนการคิดซึ่งยาวกว่าและเป็นพื้นฐานมากกว่าผลลัพธ์การกระทำ ขาดการประเมินและกำกับดูแลโดยตรง และสามารถพึ่งพาเพียงรางวัลจากผลลัพธ์เพื่อชี้นำทางอ้อมเท่านั้น
ปัญหานี้เด่นชัดเป็นพิเศษในงานที่มีขั้นตอนการกระทำมาก พื้นที่สถานะใหญ่ และมีความซับซ้อนสูง

สิ่งนี้พิสูจน์ให้เห็นว่าในการเรียนรู้แบบเสริมกำลังของเอเจนต์ VLM การชี้นำกระบวนการคิดมีความสำคัญอย่างยิ่ง

2. กรอบ GTR ป้องกันโมเดลจากการ “ล่มสลายของความคิด” ได้อย่างไร?

งานวิจัยก่อนหน้านี้ได้ให้ความสนใจกับวิธีการชี้นำกระบวนการ แต่โมเดลรางวัลกระบวนการ (Process Reward Models, PRMs) ที่พบเห็นทั่วไปจำเป็นต้องฝึกด้วยข้อมูลหลายรูปแบบที่ติดป้ายกำกับอย่างละเอียด ซึ่งมีต้นทุนสูงและกระบวนการยุ่งยาก นอกจากนี้ PRM ที่ฝึกบนชุดข้อมูลคงที่มักจะเกิดอคติได้ง่าย และปรับตัวให้เข้ากับสภาพแวดล้อมแบบโต้ตอบที่เปลี่ยนแปลงได้ยาก

วิธีการ “VLM-as-a-judge” ที่ใช้ VLM ในการให้คะแนนก็ไม่ได้ผลดีเช่นกัน รางวัลตัวเลขแบบง่ายๆ ให้ข้อมูลและคำแนะนำที่มีประสิทธิภาพไม่เพียงพอ โดยเฉพาะเมื่อพิจารณาถึงความสามารถที่แข็งแกร่งกว่าในการแฮกรางวัล (reward hacking) ของโมเดลขนาดใหญ่ เมื่อความสามารถพื้นฐานของโมเดลอ่อนแอ การขาดแรงจูงใจเชิงบวกยังอาจนำไปสู่ปัญหาการสำรวจในแง่ร้าย (pessimistic exploration) ได้ง่าย

ดังนั้น การวิจัยจำเป็นต้องหาวิธีการชี้นำความคิดที่เรียบง่ายเพียงพอ ขยายขนาดได้ และมีข้อมูลที่เพียงพอ ในกรอบ GTR “โมเดลตัวแก้ไข” (corrector model) รับบทบาทสำคัญนี้

GTR ใช้ VLM ภายนอกเป็นตัวแก้ไข ในแต่ละขั้นของการเรียนรู้แบบเสริมกำลัง ตัวแก้ไขจะประเมินความถูกต้องของการระบุและการให้เหตุผลในแนวคิดของเอเจนต์ก่อน หากพบจุดที่ไม่ถูกต้องหรือไม่สอดคล้องกัน จะทำการแก้ไขแนวคิดตามอินพุตสถานะปัจจุบันของเอเจนต์ โดยการเพิ่มการสูญเสียจากการปรับแต่งอย่างละเอียดภายใต้การดูแล (Supervised Fine-Tuning, SFT) ที่กำหนดเป้าหมายไปที่โทเค็นของแนวคิดเข้าไปในกระบวนการ PPO ปกติ เพื่อจัดแนวแนวคิดของเอเจนต์ให้ตรงกับผลลัพธ์ที่ถูกต้องที่ตัวแก้ไขให้มา จึงเกิดเป็นกรอบการฝึกร่วมแบบ “แนวคิด + การกระทำ” และ “SFT + PPO”

ด้วยวิธีนี้ การเรียนรู้แบบเสริมกำลังและการชี้นำความคิดจึงเสริมซึ่งกันและกัน การชี้นำความคิดให้สัญญาณกำกับดูแลเพิ่มเติมสำหรับการฝึก ในขณะที่การเรียนรู้แบบเสริมกำลังผ่านข้อเสนอแนะของรางวัลที่สามารถตรวจสอบได้ ทำให้กระบวนการแก้ไขไม่จำเป็นต้องพึ่งพาโมเดลภายนอกระดับผู้เชี่ยวชาญเพื่อให้เส้นทางการอ้างอิงคุณภาพสูง ดังนั้นเอเจนต์จึงสามารถก้าวข้ามขีดจำกัดความสามารถของโมเดลภายนอกได้

เพื่อแก้ไขปัญหาการเบี่ยงเบนของการกระจายตัวอย่าง (sample distribution shift) ในการฝึกแบบออนไลน์ GTR ได้นำกลยุทธ์ DAgger มาใช้เพื่อบรรเทาการสะสมของข้อผิดพลาด นอกจากนี้ กรอบยังเพิ่มคุณภาพของข้อมูลการฝึกด้วยวิธีการต่างๆ เช่น การเพิ่มรางวัลรูปแบบและการลงโทษการทำซ้ำให้กับเอเจนต์ การให้ตัวแก้ไขโมเดลสามารถเรียกใช้เครื่องมือเพื่อชดเชยความรู้เฉพาะทาง เป็นต้น

รหัสเทียมของกระบวนการฝึก GTR มีดังนี้:

3. ผลการทดลองของ GTR

บทความวิจัยได้ทำการประเมินผลการทดลองบนงานทดสอบเอเจนต์ VLM สองงานที่ใช้กันทั่วไป คือ gym_cards และ ALFWorld เอเจนต์สร้างจาก LLaVA-7B ใช้ GPT-4o เป็นตัวแก้ไขในการฝึก วิธีการเปรียบเทียบพื้นฐานรวมถึง RL4VLM ที่ใช้เพียงการเรียนรู้แบบเสริมกำลัง และวิธีการที่ใช้เพียงการชี้นำแนวคิด (SFT-only)

ในเกมไพ่ 24 点 ซึ่งยากที่สุดใน gym_cards GTR บรรลุอัตราความสำเร็จสูงสุด 17.5% ภายใน 15,000 ขั้นการฝึก ซึ่งสูงกว่าวิธีเปรียบเทียบพื้นฐานทั้งสองวิธี (2.5%, 11.0%) อย่างมาก และยังเหนือกว่าความสามารถของโมเดลตัวแก้ไข GPT-4o (13.5%) อีกด้วย

ในอีกสามเกมที่ค่อนข้างง่าย ซึ่งปรากฏการณ์การล่มสลายของความคิดไม่เด่นชัด GTR เมื่อเทียบกับ RL4VLM ก็สามารถก้าวข้ามขีดจำกัดประสิทธิภาพได้ และบรรลุระดับความสามารถของโมเดลที่ผ่านการฝึกล่วงหน้าที่มีขนาดใหญ่กว่า 10 เท่า

ในงานปัญญาประดิษฐ์เชิงรูปธรรม ALFWorld ซึ่งจำลองสถานการณ์หุ่นยนต์ในครัวเรือน เพื่อให้ใกล้เคียงกับสภาพแวดล้อมจริงและป้องกันไม่ให้โมเดลใช้ข้อมูลข้อความเพิ่มเติมเพื่อหลีกเลี่ยงการตัดสินใจเชิงภาพ การทดลองได้ลบการสังเกตข้อความที่สภาพแวดล้อมให้ออก โมเดลสามารถพึ่งพาเพียงข้อมูลภาพเพื่อการตัดสินใจ ผลลัพธ์แสดงให้เห็นว่า GTR เมื่อเทียบกับ RL4VLM สามารถหลีกเลี่ยงการลดลงของประสิทธิภาพที่เกิดจากการล่มสลายของความคิดได้อย่างมีประสิทธิภาพ และเพิ่มความสามารถในการตัดสินใจของโมเดล

การทดลองแยกส่วน (Ablation study) พิสูจน์ว่า: การชี้นำความคิดตลอดกระบวนการฝึกมีความสำคัญอย่างยิ่ง การเรียกใช้เครื่องมือเป็นสิ่งจำเป็นเพื่อเพิ่มความรู้เฉพาะทางให้กับตัวแก้ไข กลยุทธ์ DAgger สามารถบรรเทาการเบี่ยงเบนของการกระจายตัวอย่างในการฝึกแบบออนไลน์ได้อย่างมีประสิทธิภาพ ในขณะเดียวกัน การวิจัยชี้ให้เห็นว่า การทำ SFT กับผลลัพธ์เต็มของตัวแก้ไขจะจำกัดข้อเสนอแนะของการเรียนรู้แบบเสริมกำลัง และทำให้การฝึกได้รับผลกระทบจากภาพหลอน (hallucination) ของตัวแก้ไขได้ง่าย

4. ความสำคัญของการวิจัยและแนวโน้มในอนาคต

งานวิจัยนี้เปิดเผยถึงข้อจำกัดของปรากฏการณ์การล่มสลายของความคิดต่อความเสถียรของการฝึกและการเพิ่มประสิทธิภาพ ในการฝึกการเรียนรู้แบบเสริมกำลังของเอเจนต์โมเดลขนาดใหญ่แบบหลายรูปแบบ โดยการใช้โมเดลตัวแก้ไขเพื่อแก้ไขแนวคิด GTR บรรลุการกำกับดูแลกระบวนการคิดแบบอัตโนมัติเรียลไทม์ภายใต้เงื่อนไขที่ไม่ต้องติดป้ายกำกับข้อมูล ทำให้การชี้นำกระบวนการและการเรียนรู้แบบเสริมกำลังรวมกันอย่างเป็นออร์แกนิกและเสริมซึ่งกันและกัน แสดงให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพที่เด่นชัด

การวิเคราะห์และแนวทางแก้ไขที่เป็นนวัตกรรมนี้ ยังให้แรงบันดาลใจและความเป็นไปได้ใหม่ๆ สำหรับการฝึกเอเจนต์โมเดลขนาดใหญ่ในงานที่ซับซ้อนและใช้เวลานานอีกด้วย

สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูบทความวิจัยต้นฉบับ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง