ปัจจุบัน RLVR (Reinforcement Learning with Verifiable Rewards) ได้กลายเป็นเส้นทางหลักในการกระตุ้นความสามารถในการให้เหตุผลของโมเดลภาษาขนาดใหญ่ อย่างไรก็ตาม RLVR ต้องการข้อมูลที่มีป้ายกำกับคุณภาพสูงเพื่อกำกับดูแลการรับรางวัล ซึ่งเป็นข้อจำกัดหลักในด้านความสามารถในการปรับขยาย
เมื่อหันไปใช้การฝึกฝนการเรียนรู้แบบเสริมแรงแบบ “ให้รางวัลตัวเอง (Self-rewarding)” ที่ไม่ต้องการข้อมูลที่มีป้ายกำกับ โมเดลมักจะตกอยู่ในภาวะการฝึกพังทลาย (Training Collapse) อย่างรวดเร็ว แม้ดูเหมือนว่าโมเดลจะได้รับรางวัล (Reward) สูงขึ้นเรื่อยๆ แต่จริงๆ แล้วมันกำลังใช้ช่องโหว่ในกฎการให้รางวัลตัวเองเพื่อแสวงหารางวัล (Reward Hacking) แทนที่จะตอบคำถามถูกต้องและได้รับรางวัลอย่างแท้จริง
กระบวนทัศน์การฝึกการเรียนรู้แบบเสริมแรง (Reinforcement Learning, RL) แบบใดกัน ที่จะสามารถทำให้การฝึก RL มีเสถียรภาพและกระตุ้นความสามารถในการให้เหตุผลของโมเดลได้ โดยไม่ต้องอาศัยคำตอบที่ถูกต้อง (Ground-truth) ที่มีป้ายกำกับ?
เพื่อตอบสนองต่อความท้าทายนี้ ทีมวิจัยได้เสนอกรอบงาน RL แบบกำกับดูแลตัวเองใหม่ล่าสุดที่ชื่อว่า Co-rewarding กรอบงานนี้แนะนำสัญญาณกำกับดูแลตัวเองจากมุมมองที่เสริมกันในฝั่งข้อมูลหรือโมเดล เพื่อทำให้การรับรางวัลมีเสถียรภาพ เพิ่มความยากในการที่โมเดลจะแสวงหารางวัลระหว่างกระบวนการ RL จึงสามารถหลีกเลี่ยงการฝึก RL พังทลายได้อย่างมีประสิทธิภาพ ทำให้การฝึกมีเสถียรภาพและกระตุ้นความสามารถในการให้เหตุผลของโมเดล

- ชื่อบทความ: Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
- ลิงก์บทความ: https://openreview.net/forum?id=fDk95XPsCU
- ลิงก์โค้ด: https://github.com/bigai-ai/LIFT-humanoid
- ลิงก์ Huggingface: https://huggingface.co/collections/TMLR-Group-HF/co-rewarding
ทำไมการฝึกกลยุทธ์ให้รางวัลตัวเองจึงนำไปสู่การฝึกพังทลาย?
ในสถานการณ์ที่ขาดข้อมูลที่มีป้ายกำกับ กลยุทธ์ให้รางวัลตัวเองในปัจจุบันล้วนฝึกฝนโดยการเสริมสร้างความมั่นใจของโมเดลเอง ซึ่งแบ่งออกเป็นสองประเภทหลัก:
1. วิธีที่ใช้เอนโทรปี (Entropy): เสริมสร้างความมั่นใจของโมเดลโดยการลดเอนโทรปีของเนื้อหาที่โมเดลส่งออก หรือเพิ่มดัชนีต่างๆ เช่น ความแน่นอนของตัวเอง (Self-certainty)
2. วิธีที่ใช้ความสอดคล้อง: ให้โมเดลส่งออกหลายครั้งสำหรับคำถามเดียวกัน จากนั้นใช้การลงคะแนนเสียงส่วนใหญ่ (Majority-voting) เพื่อได้ป้ายกำกับเทียม (Pseudo label) มาควบคุมการฝึก RL

รูปที่ 1: 4 รูปทางซ้ายคือเส้นโค้งประสิทธิภาพบนชุดตรวจสอบระหว่างการฝึก 2 รูปทางขวาคือเส้นโค้งรางวัล (Reward) ระหว่างการฝึก
ไม่ว่าจะเป็นวิธีใด พวกมันล้วนให้โมเดลปัจจุบันสร้างสัญญาณจากมุมมองเดียวเพื่อควบคุมดูแลตัวเอง สิ่งนี้ทำให้โมเดลแสวงหารางวัลได้ง่ายมาก โดยใช้วิธีที่ง่ายที่สุดเพื่อรับรางวัล แทนที่จะสร้างเส้นทางการให้เหตุผลที่ถูกต้อง มันเหมือนกับการให้นักเรียนควบคุมดูแลตัวเอง นักเรียนจะ “เผลอเหม่อ” เอง ดังแสดงในรูปที่ 1 โมเดลจะพบว่าการส่งออกโทเค็นบางส่วนซ้ำๆ สามารถทำให้เอนโทรปีต่ำสุดได้ การส่งออกคำตอบที่สอดคล้องแต่ผิดก็สามารถได้รับรางวัลได้เช่นกัน สิ่งนี้นำไปสู่โมเดลที่ได้รับรางวัลสูงสุดในกลไกการให้รางวัลตัวเองของ RL ด้วยวิธีการแสวงหารางวัล การรับรางวัลและความถูกต้องของการให้เหตุผลค่อยๆ แยกจากกัน และนำไปสู่การฝึกพังทลายในที่สุด

รูปที่ 2: แผนภาพกรอบงาน Co-rewarding ต่างจากวิธีการกำกับดูแลตัวเองแบบมุมมองเดียว (a) Co-rewarding แนะนำสัญญาณกำกับดูแลที่เสริมกันจากมุมมองอื่น (b) จากมุมมองข้อมูล Co-rewarding-I ใช้คำถามเดิมและคำถามที่ปรับประโยคใหม่เพื่อควบคุมดูแลซึ่งกันและกัน (c) จากมุมมองโมเดล Co-rewarding-II ใช้โมเดลครูอ้างอิงเพื่อสร้างป้ายกำกับเทียมมาควบคุมโมเดลปัจจุบัน
Co-rewarding เสนอการเปลี่ยนแปลงที่สำคัญ: ควบคุมดูแลและให้รางวัลจากมุมมองที่เสริมกัน
เพื่อตอบสนองต่อความท้าทายนี้ Co-rewarding เสนอการเปลี่ยนแปลงสำคัญเพื่อหลีกเลี่ยงการฝึกพังทลาย: ไม่เชื่อสัญญาณควบคุมดูแลจากมุมมองเดียวอีกต่อไป แต่แนะนำ “การควบคุมดูแลจากมุมมองที่เสริมกัน” อย่างแข็งขัน เพื่อเพิ่มความยากในการที่โมเดลจะแสวงหารางวัล โดยเฉพาะ Co-rewarding ให้การนำไปปฏิบัติสองแบบจากมุมมองข้อมูลและมุมมองโมเดล
วิธีที่หนึ่ง: Co-rewarding-I (มุมมองข้อมูล)
ดังแสดงในรูปที่ 2 (b) Co-rewarding-I แนะนำสัญญาณควบคุมดูแลที่เสริมกันในระดับข้อมูล สร้างคำถามที่ปรับประโยคใหม่ (Rephrased Questions) ที่มีความหมายเท่ากันแต่มีการแสดงออกต่างจากคำถามเดิม ใช้ “ความสอดคล้องเชิงเปรียบเทียบ” ระหว่างคำถามเดิมและคำถามที่ปรับประโยคใหม่เพื่อควบคุมดูแลซึ่งกันและกัน:
- สุ่มตัวอย่างหลายครั้งสำหรับคำถามเดิมและคำถามที่ปรับประโยคใหม่ เพื่อสร้างคำตอบ
- ใช้ป้ายกำกับเทียมที่ได้จากการลงคะแนนเสียงส่วนใหญ่ของคำตอบจากคำถามเดิม ไปควบคุมดูแลคำถามที่ปรับประโยคใหม่ และใช้ป้ายกำกับเทียมที่ได้จากการลงคะแนนเสียงส่วนใหญ่ของคำตอบจากคำถามที่ปรับประโยคใหม่ ไปควบคุมดูแลคำถามเดิม
จุดสำคัญของการออกแบบนี้คือ: โมเดลต้องรักษาความสอดคล้องของผลการให้เหตุผลภายใต้การแสดงออกที่ต่างกัน จึงจะได้รับรางวัลอย่างต่อเนื่อง เมื่อเทียบกับความสอดคล้องภายในของมุมมองเดียว ความสอดคล้องข้ามคำถามเพิ่มความยากในการแสวงหารางวัลอย่างมีนัยสำคัญ จึงบรรเทาปัญหาการฝึกพังทลายได้อย่างมีประสิทธิภาพ
วิธีที่สอง: Co-rewarding-II (มุมมองโมเดล)
ดังแสดงในรูปที่ 2 (c) Co-rewarding-II แยกการเชื่อมโยงระหว่างสัญญาณควบคุมดูแลกับการฝึกโมเดล Policy ปัจจุบันในระดับโมเดล นั่นคือ ป้ายกำกับเทียมที่สัญญาณควบคุมดูแลต้องการไม่ได้มาจากโมเดล Policy ปัจจุบัน แต่มาจากโมเดลครูอีกตัวหนึ่ง ซึ่งเพิ่มความยากในการที่โมเดล Policy ปัจจุบันจะควบคุมสัญญาณรางวัล และเพิ่มความยากในการแสวงหารางวัล:
- โมเดลครูสร้างคำตอบการให้เหตุผลหลายครั้งสำหรับหนึ่งคำถาม และลงคะแนนเสียงส่วนใหญ่เพื่อสร้างป้ายกำกับเทียม
- โมเดล Policy นักเรียนรับรางวัลและฝึก RL ตามป้ายกำกับเทียมที่ครูให้มา
- โมเดลครูไม่จำเป็นต้องแนะนำโมเดลเพิ่มเติม แต่ได้มาจากโมเดลนักเรียนโดยการอัปเดตโมเดลอ้างอิง (Reference Model) ผ่าน EMA (Exponential Moving Average)
โครงสร้าง “ครูที่อัปเดตช้า + นักเรียนที่อัปเดตเร็ว” นี้ โดยพื้นฐานแล้วเป็นกลไกการกลั่นตัวเอง (Self-distillation) ที่แยกเวลา ซึ่งสามารถหลีกเลี่ยงการที่โมเดล Policy ปัจจุบันจะจัดการกับสัญญาณรางวัลได้อย่างมีประสิทธิภาพ จึงลดความเสี่ยงของการฝึกพังทลายได้อย่างมีนัยสำคัญ
ผลการทดลอง: ไม่เพียงแต่มีเสถียรภาพมากขึ้น แต่ยังมีประสิทธิภาพที่แข็งแกร่งขึ้น
จากการทดลองบนชุดฝึกหลายชุด (MATH, DAPO-14k) และตระกูลโมเดล (Qwen2.5/3, Llama) และประเมินบนชุดข้อมูลมาตรฐานหลายชุดสำหรับการให้เหตุผลทางคณิตศาสตร์ การสร้างโค้ด และโดเมนทั่วไป Co-rewarding แสดงให้เห็นถึงข้อได้เปรียบเหนือกว่าวิธีการให้รางวัลตัวเองที่มีอยู่:

ตารางที่ 1: การเปรียบเทียบประสิทธิภาพบนชุดฝึก MATH ยิ่งสีเข้มยิ่งแสดงว่าประสิทธิภาพในกลุ่มเดียวกันดีกว่า Co-rewarding-I เมื่อเทียบกับวิธีฐานการให้รางวัลตัวเองที่ดีที่สุด มีการเพิ่มประสิทธิภาพเฉลี่ย +4.42% บนมาตรฐานที่เกี่ยวข้องกับคณิตศาสตร์ 4 มาตรฐาน

ตารางที่ 2: การเปรียบเทียบประสิทธิภาพบนชุดฝึก DAPO-14K ยิ่งสีเข้มยิ่งแสดงว่าประสิทธิภาพในกลุ่มเดียวกันดีกว่า Co-rewarding-II เมื่อเทียบกับวิธีฐานการให้รางวัลตัวเองที่ดีที่สุด มีการเพิ่มประสิทธิภาพเฉลี่ย +12.90% บนมาตรฐานที่เกี่ยวข้องกับคณิตศาสตร์ 4 มาตรฐาน
- จากตารางที่ 1 บนมาตรฐานการให้เหตุผลทางคณิตศาสตร์ 4 มาตรฐาน เมื่อเทียบกับวิธีการให้รางวัลตัวเองที่ดีที่สุด Co-rewarding-I มีการเพิ่มประสิทธิภาพเฉลี่ย +4.42% จากตารางที่ 2 Co-rewarding-II มีการเพิ่มประสิทธิภาพเฉลี่ย +12.90%
- ในบางกรณี Co-rewarding ยังทำได้ดีกว่าโมเดลที่ได้จากการฝึก RL ที่ใช้คำตอบจริงควบคุมดูแล ตัวอย่างเช่น Qwen3-8B-Base ใช้ Co-rewarding-II บน GSM8K ได้ Pass@1 94.01%
- จากการสังเกตในรูปที่ 1 ในระหว่างกระบวนการฝึกของ Co-rewarding เส้นโค้งประสิทธิภาพบนชุดตรวจสอบเพิ่มขึ้นอย่างต่อเนื่อง ได้รับรางวัลอย่างต่อเนื่อง ไม่เกิดการฝึกพังทลายหรือการแย่งชิงรางวัล
- Co-rewarding ฝึกบนชุดฝึกที่เกี่ยวข้องกับคณิตศาสตร์ แต่ยังคงมีการเพิ่มประสิทธิภาพบนมาตรฐานการสร้างโค้ด
- Co-rewarding รักษาประสิทธิภาพให้คงที่บนมาตรฐานหลายงานและโดเมนทั่วไป เช่น MMLU-Pro และ IFEval ไม่เสียสละประสิทธิภาพของโมเดลในโดเมนทั่วไป
กุญแจสำคัญของการเรียนรู้แบบเสริมแรงแบบกำกับดูแลตัวเอง คือการสร้างสัญญาณควบคุมดูแลที่ “น่าเชื่อถือ” มากขึ้น เพื่อรักษาการเรียนรู้ที่เสถียรและต่อเนื่อง ด้วยการแนะนำกลไกการควบคุมดูแลรางวัลจากมุมมองที่เสริมกัน Co-rewarding พิสูจน์ว่า: แม้ไม่มีป้ายกำกับจากมนุษย์ ผ่านกลไกการให้รางวัลตัวเองที่สมเหตุสมผลและน่าเชื่อถือ โมเดลขนาดใหญ่ก็สามารถกระตุ้นความสามารถในการให้เหตุผลได้อย่างเสถียรและต่อเนื่อง สิ่งนี้สะท้อนถึงศักยภาพของการเรียนรู้แบบเสริมแรงแบบกำกับดูแลตัวเอง ในขณะที่หลุดพ้นจากการพึ่งพาข้อมูลที่มีป้ายกำกับ ยังสอดคล้องกับจิตวิญญาณของ Scaling Law มากขึ้น สามารถรับข้อมูลเพิ่มเติมได้ง่ายขึ้นสำหรับการฝึกโมเดล

ทีมผู้เขียน: จาง จื่อจัว, จู เจียหนิง (ปัจจุบันเป็นนักวิจัยหลังปริญญาเอกที่ UT Austin), โจว จ่านเคอ, หลี่ เสวียน, เฝิง เสี่ยว มาจากกลุ่มการเรียนรู้เครื่องที่เชื่อถือได้และการอนุมาน ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยฮ่องกงแบปติสต์ เกอ ซินมู่ และ เจ้า จือหัว มาจากมหาวิทยาลัยเซี่ยงไฮ้เจียวทง อาจารย์ที่ปรึกษาของทีมคือ ศาสตราจารย์หาน ป๋อ และศาสตราจารย์เหยา เจียงเชา ผู้เขียนงานวิจัยนี้ล้วนเผยแพร่บทความหลายบทความในที่ประชุมชั้นนำด้านการเรียนรู้เครื่องและปัญญาประดิษฐ์ เช่น NeurIPS, ICML, ICLR โดยมีทิศทางการวิจัยหลักคือการให้เหตุผลของโมเดลภาษาขนาดใหญ่
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22898
