การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน

การเปลี่ยนกระบวนทัศน์ของการเรียนรู้แบบเสริมแรง: จากแบบกำกับดูแลสู่แบบไร้การกำกับดูแล

การเรียนรู้แบบเสริมแรงกำลังขยายขีดความสามารถของโมเดลขนาดใหญ่อย่างต่อเนื่อง ตั้งแต่ OpenAI o3 ไปจนถึง DeepSeek-R1, Gemini 3 โมเดลชั้นนำกำลังผลักดันขีดจำกัดของงานการให้เหตุผลผ่าน RLVR (การเรียนรู้แบบเสริมแรงด้วยรางวัลที่ตรวจสอบได้) ขนาดใหญ่ อย่างไรก็ตาม ข้อจำกัดของการฝึกแบบกำกับดูแลล้วนๆ กำลังปรากฏชัดเจนมากขึ้น: ค่าใช้จ่ายในการติดป้ายกำกับโดยมนุษย์เพิ่มขึ้นแบบทวีคูณ การได้มาซึ่งป้ายกำกับที่เชื่อถือได้ในสาขาวิชาชีพทำได้ยากขึ้นเรื่อยๆ เมื่อความสามารถของโมเดลเข้าใกล้หรือแม้แต่เหนือกว่าผู้เชี่ยวชาญมนุษย์ ผู้ประเมินที่เชื่อถือได้จะมาจากไหน?

ในบริบทนี้ Unsupervised RLVR จึงเกิดขึ้น โดยมีเป้าหมายเพื่อให้โมเดลหลุดพ้นจากการพึ่งพาการติดป้ายกำกับโดยมนุษย์ และบรรลุการวิวัฒนาการด้วยตนเอง นี่ไม่เพียงเป็นความต้องการในทางปฏิบัติเพื่อลดต้นทุนและเพิ่มประสิทธิภาพ แต่ยังเป็นเส้นทางที่มีศักยภาพสู่รูปแบบความฉลาดขั้นสูงกว่า ดังที่การฝึกล่วงหน้าด้วยข้อมูลจำนวนมหาศาลที่ไม่มีป้ายกำกับได้ให้กำเนิด GPT, Unsupervised RLVR จะสามารถสร้างปาฏิหาริย์นี้ซ้ำอีกครั้ง และเปิดบทใหม่ของการเรียนรู้แบบเสริมแรงได้หรือไม่?

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน

  • ลิงก์บทความวิจัย: https://arxiv.org/abs/2603.08660
  • GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
  • X Thread: https://x.com/HBX_hbx/status/2031406636930338828

งานวิจัยล่าสุดจากมหาวิทยาลัยชิงหวา ได้วาดเส้นขอบเขตแรกที่ชัดเจนให้กับภาพที่ดูสวยงามนี้ นักวิจัยได้วิเคราะห์กลไกภายในของ Unsupervised RLVR อย่างเป็นระบบ และพบว่าวิธีการทั้งหมดที่สร้างรางวัลภายในจากสัญญาณของโมเดลเอง ไม่ว่าจะเป็นการโหวตเสียงข้างมาก รางวัลตามเอนโทรปี หรือรูปแบบอื่นๆ ล้วนแต่เดินตามเส้นทางที่คล้ายคลึงกัน: ประสิทธิภาพเพิ่มขึ้นอย่างรวดเร็วในช่วงเริ่มต้นของการฝึก แต่หลังจากถึงจุดวิกฤตหนึ่งแล้ว ก็เริ่มลดลงอย่างไม่อาจย้อนกลับได้

นี่ไม่ใช่ข้อบกพร่องของวิธีการเฉพาะเจาะจง แต่เป็นชะตากรรมของกลไกที่มีมาแต่เดิม วิธีการเหล่านี้โดยพื้นฐานแล้วกำลัง “ทำให้คมชัด” ความโน้มเอียงที่มีอยู่เดิมของโมเดล เหมือนกับห้องสะท้อนเสียง ที่ทำให้โมเดลเสริมสร้างความเชื่อเริ่มต้นของมันอย่างต่อเนื่อง หากความเชื่อเริ่มต้นนั้นถูกต้อง ผลลัพธ์ก็จะโดดเด่น แต่ถ้าความเชื่อเริ่มต้นมีอคติ การพังทลายของประสิทธิภาพก็เป็นเพียงเรื่องของเวลา

อย่างไรก็ตาม นี่ไม่ได้หมายความว่ารางวัลภายในไม่มีคุณค่าใดเลย การวิจัยแสดงให้เห็นว่าในการฝึกแบบทดสอบในขณะทดสอบ (test-time training) ขนาดเล็ก มันยังคงสามารถปรับปรุงประสิทธิภาพของโมเดลได้อย่างมั่นคง แม้แต่เมื่อคำตอบเริ่มต้นของโมเดลผิดทั้งหมด มันก็ยังสามารถวิวัฒนาการในกระบวนการแก้ไขที่ขับเคลื่อนด้วยตนเองได้ สิ่งสำคัญกว่านั้นคือ นักวิจัยได้พบ “ตัวบ่งชี้ทำนาย” ที่สามารถคาดการณ์ความสามารถในการฝึกของโมเดลได้ก่อนที่จะลงทุนฝึกในระดับใหญ่ เพื่อหลีกเลี่ยงการรันเส้นโค้งการฝึกเต็มรูปแบบ

เมื่อรางวัลภายในถูกจำกัดด้วย “เสียงสะท้อน” ของโมเดลเอง วิธีการให้รางวัลที่อาศัยข้อมูลภายนอก (เช่น การใช้ประโยชน์จากความไม่สมมาตรระหว่างกระบวนการสร้างและการตรวจสอบ) เริ่มแสดงศักยภาพที่แตกต่าง วิธีการประเภทนี้กำลังพยายามทะลุเพดานของรางวัลภายใน และผลักดันการเรียนรู้แบบเสริมแรงไร้การกำกับดูแลไปสู่ความสามารถในการปรับขยายได้อย่างแท้จริง

บนเส้นทางสู่ความฉลาดขั้นสูง สิ่งที่เราต้องการไม่ใช่การเชื่ออย่างมืดบ่าว่าโมเดลสามารถวิวัฒนาการด้วยตนเองได้ แต่คือการรู้อย่างชัดเจนว่า: เมื่อใดควรปล่อยให้มันฟัง “เสียงสะท้อน” ของตัวเอง และเมื่อใดที่ต้องผลักดันมันไปสู่การตรวจสอบจากโลกแห่งความเป็นจริง

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน

วิธีการให้รางวัลภายใน: ความยากลำบากลึกซึ้งภายใต้ภาพลักษณ์ที่รุ่งเรือง

ในช่วงปีที่ผ่านมา วิธีการ “ให้รางวัลภายใน” ต่างๆ ปรากฏขึ้นอย่างหนาแน่น ตั้งแต่การโหวตเสียงข้างมากไปจนถึงรูปแบบที่อาศัยความมั่นใจหรือเอนโทรปีของโมเดล วิธีการเหล่านี้ใช้สัญญาณภายในของโมเดลเพื่อสร้างรางวัลตัวแทน (proxy reward) และมักนำไปสู่การเพิ่มขึ้นของประสิทธิภาพอย่างรวดเร็วในช่วงต้นของการฝึก แม้กระทั่งแซงหน้าวิธีการกำกับดูแลในบางครั้ง

นักวิจัยได้จัดกลุ่มวิธีการเหล่านี้เป็นสองประเภทตามแหล่งที่มาของสัญญาณรางวัล: ประเภทหนึ่งอาศัยความแน่นอน (deterministic) โดยนำตัวบ่งชี้ความมั่นใจของโมเดลบนเส้นทางการให้เหตุผลมาใช้เป็นรางวัลโดยตรง อีกประเภทหนึ่งอาศัยการรวมกลุ่ม (ensemble) โดยใช้ผลลัพธ์จากการรวมกลุ่มหลังจากการรันหลายครั้ง (เช่น การโหวตเสียงข้างมาก) เพื่อยึดคำตอบที่ถูกต้อง

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน

แม้ว่าสัญญาณรางวัลเองจะเป็น “ฟรี” แต่ต้นทุนของมันอาจสูงมาก หลังจากประสิทธิภาพพุ่งสูงขึ้นในช่วงต้น การฝึกอย่างต่อเนื่องมักจะกระตุ้นปรากฏการณ์ “การแฮกรางวัล (reward hacking)” แบบฉบับ:
* รางวัลตัวแทนเพิ่มขึ้นอย่างต่อเนื่อง แต่ประสิทธิภาพจริงเริ่มพังทลาย
* โมเดลแสดงความมั่นใจมากขึ้นเรื่อยๆ แต่ให้คำตอบที่ห่างไกลจากความเป็นจริงมากขึ้น
* วิธีการให้รางวัลภายในที่ต่างกันแสดงผลที่แตกต่างกันมากในโมเดลที่ต่างกัน และขาดความสามารถในการอธิบาย

ที่สำคัญที่สุดคือ ก่อนหน้านี้ไม่มีใครสามารถอธิบายได้อย่างชัดเจนว่าวิธีการเหล่านี้ทำงานได้ผลเพราะเหตุใด และสุดท้ายจึงล้มเหลว

เป้าหมายการวิจัย: เปิดกล่องดำ กำหนดขอบเขต

เป้าหมายของการศึกษานี้ไม่ใช่เพียงแค่ “เสนอวิธีการใหม่เพื่อรีเฟรชตัวชี้วัด” แต่เพื่อตอบคำถามพื้นฐานที่ยังค้างคาอยู่นั้น: ขีดจำกัดการขยายขยายของ Unsupervised RLVR อยู่ที่ไหน? หากมีขีดจำกัด ขอบเขตของมันควรถูกกำหนดอย่างไร?

เพื่อจุดประสงค์นี้ เราได้ดำเนินงานในห้าระดับต่อไปนี้:
1. สร้างกรอบทฤษฎีแบบรวม: นำวิธีการให้รางวัลภายในที่ดูแตกต่างกันมารวมไว้ภายใต้กลไกเดียวกัน เผยให้เห็นแก่นแท้ที่ “ต่างเส้นทางแต่ไปสู่จุดเดียวกัน” นั่นคือ การทำให้คมชัดของการกระจายเริ่มต้นของโมเดล และให้ขอบเขตการลู่เข้าในทางทฤษฎี
2. ดำเนินการวิเคราะห์เชิงประจักษ์ขนาดใหญ่: ทำการสแกนไฮเปอร์พารามิเตอร์บนโมเดล 11 ตัว วิธีการให้รางวัลภายใน 5 วิธี ใช้ข้อมูลยืนยันว่า “ขึ้นแล้วลง” ไม่ใช่เรื่องบังเอิญ แต่เป็นรูปแบบทั่วไป
3. กำหนดเขตปลอดภัยในการใช้งาน: ไม่ใช่ทุกสถานการณ์ที่จะนำไปสู่การพังทลาย การวิจัยพบว่าในสถานการณ์การฝึกแบบทดสอบในขณะทดสอบ (test-time training) ขนาดเล็ก รางวัลภายในสามารถใช้ได้อย่างปลอดภัย แม้ว่าคำตอบเริ่มต้นจะผิดทั้งหมด โมเดลก็ยังสามารถวิวัฒนาการได้อย่างมั่นคง
4. เปลี่ยนกับดักเป็นป้ายบอกทาง: เส้นโค้ง “ขึ้นและลง” นั้นมีข้อมูลอยู่ในตัว เราจึงได้สกัดตัวบ่งชี้เบื้องต้นของโมเดลจากสิ่งนี้ โดยไม่จำเป็นต้องรันเส้นโค้งการเรียนรู้แบบเสริมแรงเต็มรูปแบบ ก็สามารถคาดการณ์ได้ว่าโมเดลพื้นฐานตัวหนึ่งเหมาะสำหรับการปรับแต่งด้วยการเรียนรู้แบบเสริมแรงหรือไม่
5. สำรวจทางเลือกอื่น: เนื่องจากรางวัลภายในมีเพดานจำกัด เราจึงหันความสนใจไปที่รางวัลภายนอก เราได้สำรวจเบื้องต้นเกี่ยวกับวิธีการให้รางวัลภายนอกที่อาศัยความไม่สมมาตรระหว่างการสร้างและการตรวจสอบ เพื่อทดสอบว่ามันสามารถทะลุขีดจำกัดการขยายขยายของรางวัลภายในได้จริงหรือไม่

การค้นพบหลัก

🔍 การค้นพบที่ 1: ความสำเร็จหรือล้มเหลวขึ้นอยู่กับระดับ “การจัดเรียงความมั่นใจ-ความถูกต้อง”

เราได้สร้างทฤษฎีแบบรวมสำหรับวิธีการให้รางวัลภายใน ซึ่งเผยให้เห็นว่าแก่นแท้ของวิธีการทั้งหมดนี้คือการทำให้คมชัดของการกระจาย (distribution sharpening) นั่นคือ การขยายความโน้มเอียงที่มีอยู่เดิมของโมเดล แทนที่จะสร้างความรู้ใหม่ กลไกนี้มีคุณลักษณะสำคัญ:
* หากแนวโน้มเริ่มต้นของโมเดลถูกต้อง → การทำให้คมชัดมีประสิทธิภาพ ประสิทธิภาพเพิ่มขึ้น
* หากแนวโน้มเริ่มต้นของโมเดลผิด → การทำให้คมชัดเป็นอันตราย เร่งการพังทลาย

เรากำหนดแนวโน้มเริ่มต้นของโมเดล (หรือที่เรียกว่า ความรู้เบื้องต้นของโมเดล) ว่าเป็นระดับ“การจัดเรียงความมั่นใจ-ความถูกต้อง” ซึ่งวัดว่า เมื่อเราเพิ่มความสอดคล้องภายในของโมเดล (ทำให้มันมั่นใจมากขึ้น) เรามีโอกาสมากแค่ไหนที่จะเพิ่มอัตราความถูกต้องของการตอบคำถามโดยตรง กล่าวอีกนัยหนึ่ง โมเดลที่มีความรู้เบื้องต้นแข็งแกร่งนั้น ได้รับความรู้ส่วนใหญ่ที่จำเป็นสำหรับการแก้ปัญหาแล้ว เพียงแต่ไม่มั่นใจพอที่จะส่งออกคำตอบที่ถูกต้องได้อย่างมั่นคง

จากการทดสอบโมเดล 11 ตัว วิธีการ 5 วิธี ชุดค่าผสมไฮเปอร์พารามิเตอร์ที่ใช้ทั่วไป 4 ชุด ข้อสรุปชี้ไปสู่ความเป็นไปได้หนึ่ง: การพังทลายของประสิทธิภาพยากที่จะหลีกเลี่ยง เป็นเพียงเรื่องของเวลาที่จะเกิดขึ้นเร็วหรือช้า แม้แต่การตั้งค่าที่มั่นคงที่สุดก็ทนไม่เกินไม่กี่รอบการฝึก สิ่งนี้บ่งชี้ว่าปัญหาอาจไม่ได้มาจากการนำไปใช้ทางวิศวกรรม แต่เป็นสิ่งที่หลีกเลี่ยงไม่ได้ในทางคณิตศาสตร์

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน
ภาพซ้าย: ความสำเร็จหรือล้มเหลวขึ้นอยู่กับระดับการจัดเรียงความมั่นใจ-ความถูกต้อง; ภาพขวา: การวิวัฒนาการของความมั่นใจและความถูกต้องบนข้อมูลชิ้นเดียวตามการฝึก

✅ การค้นพบที่ 2: กลับปลอดภัยในสถานการณ์ขนาดเล็ก

แม้ว่า “ขึ้นแล้วลง” จะเป็นกฎทั่วไป แต่ขอบเขตการใช้งานของมันมีจำกัด

เมื่อปริมาณข้อมูลการฝึกมีน้อยเพียงพอ เช่น ในสถานการณ์ขนาดเล็กที่มุ่งเน้นเฉพาะด้าน เช่น การฝึกแบบทดสอบในขณะทดสอบ (test-time training) วิธีการให้รางวัลภายในกลับแสดงความมั่นคงที่น่าทึ่ง เหตุผลนั้นชัดเจน: การเพิ่มประสิทธิภาพความมั่นใจบนตัวอย่างเพียงไม่กี่ชิ้น ทำให้พื้นที่การเพิ่มประสิทธิภาพของโมเดลมีจำกัด แม้ว่ามันจะ “มั่นใจสุดขีด” ในตัวอย่างเหล่านี้ ก็ยากที่จะทำให้เกิดการเปลี่ยนแปลงกลยุทธ์ในระดับโลก อัตราความถูกต้องของมันในงานนอกการกระจายยังคงสามารถรักษาเสถียรภาพได้

การทดลองสุดขั้วที่น่าสนใจยิ่งขึ้นคือ: นักวิจัยเลือกตัวอย่าง 32 ชิ้นโดยเจตนา ซึ่งโมเดลให้คำตอบเริ่มต้นผิดทั้งหมดเป็นชุดฝึก นี่หมายความว่ารางวัลตัวแทนที่รางวัลภายในให้มาตั้งแต่แรกนั้นผิด อย่างไรก็ตาม ผลลัพธ์แสดงให้เห็นว่าประสิทธิภาพของโมเดลบนชุดทดสอบนอกการกระจายยังคงเพิ่มขึ้นอย่างมั่นคง

นี่แสดงให้เห็นว่าการฝึกด้วยรางวัลภายในไม่ได้สอนโมเดลว่า “อะไรถูกต้อง” แต่กำลังสอนมันว่า “เชื่อมั่นในตัวเองมากขึ้น” แม้ว่าจะเชื่อผิด การเสริมสร้างตนเองนี้ก็ถูกจำกัดอยู่ในขอบเขตเฉพาะที่ และยากที่จะก่อให้เกิดคลื่นลมใหญ่

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน
ภาพซ้าย: การฝึกแบบทดสอบในขณะทดสอบขนาดเล็กปรับปรุงอย่างมั่นคง ไม่เกิดการพังทลาย; ภาพขวา: การเปลี่ยนแปลงความแตกต่าง KL ของกลยุทธ์ภายใต้ขนาดชุดฝึกที่ต่างกัน

🎯 การค้นพบที่ 3: การคาดการณ์ล่วงหน้า “ความสามารถในการฝึกด้วยการเรียนรู้แบบเสริมแรง” ของโมเดล

เส้นโค้ง “ขึ้นและลง” ไม่เพียงเป็นสัญญาณความเสี่ยง แต่ตัวมันเองก็บรรจุข้อมูลที่มีคุณค่า

เนื่องจากความสำเร็จหรือล้มเหลวของรางวัลภายในขึ้นอยู่กับระดับ “การจัดเรียงความมั่นใจ-ความถูกต้อง” เริ่มต้นของโมเดล แล้วเราสามารถใช้ระดับการจัดเรียงนี้เพื่อตัดสินล่วงหน้าได้หรือไม่ว่าโมเดลพื้นฐานตัวหนึ่งเหมาะสำหรับการปรับแต่งด้วยการเรียนรู้แบบเสริมแรงหรือไม่? ท้ายที่สุดแล้ว การรันการเรียนรู้แบบเสริมแรงขนาดใหญ่หนึ่งครั้งมีต้นทุนสูง และแวดวงวิชาการขาดตัวบ่งชี้ทำนายล่วงหน้าที่เบามาตลอด

นักวิจัยพบ “ไม้บรรทัด”: จำนวนก้าวที่โมเดลพังทลาย ใช้สำหรับวัดว่าโมเดลหนึ่งสามารถทนได้กี่ก้าวภายใต้การฝึกด้วยรางวัลภายใน ก่อนที่จะพังทลายโดยสมบูรณ์ ตรรกะง่ายๆ คือ: ยิ่งการพังทลายเกิดขึ้นช้า แสดงว่าความรู้เบื้องต้นเริ่มต้นของโมเดลดีกว่า โมเดลนั้นมีความรู้ที่ถูกต้องมากกว่าในตัวอยู่แล้ว เพียงแต่ไม่มั่นใจพอ และความรู้เบื้องต้นนี้เอง ที่เป็นลักษณะที่การเรียนรู้แบบเสริมแรงแบบกำกับดูแลมาตรฐานสามารถขยายได้อย่างมีประสิทธิภาพ กล่าวอีกนัยหนึ่ง จุดพังทลายภายใต้รางวัลภายใน สามารถเป็นตัวบ่งชี้ตามธรรมชาติของ “ความสามารถในการฝึกด้วยการเรียนรู้แบบเสริมแรง” ของโมเดลได้

ผลการทดลองยืนยันสิ่งนี้ ชุดโมเดลที่ได้รับการยอมรับว่า “เหมาะสำหรับการเรียนรู้แบบเสริมแรง” เช่น Qwen สามารถทนได้นานกว่าในการฝึกด้วยรางวัลภายใน ที่มีความหมายยิ่งกว่านั้นคือ ตัวบ่งชี้นี้ไม่ต้องการป้ายกำกับจริงใดๆ ความแม่นยำในการทำนายของมันแม้แต่แซงหน้าตัวชี้วัด pass@k แบบดั้งเดิม

สิ่งนี้ทำให้สามารถเปลี่ยนเส้นโค้งความล้มเหลวเป็นป้ายนำทาง เปลี่ยนกระบวนการลองผิดลองถูกที่แพงเป็นเครื่องมือทำนายล่วงหน้าที่เบา

การสำรวจขอบเขตของการเรียนรู้แบบเสริมกำลังแบบไม่มีผู้ดูแล: การวิจัยของมหาวิทยาลัยชิงหวาเผยให้เห็นความรุ่งเรืองและกับดักของรางวัลภายใน

การค้นพบที่ 4: รางวัลภายนอกคือทิศทางสำคัญสู่ความสามารถในการปรับขยาย

หากรางวัลภายในมีขีดจำกัดที่มีมาแต่เดิม ทางออกอยู่ที่ไหน?


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/26775

Like (0)
Previous 3 hours ago
Next 3 hours ago

相关推荐