I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

7 hours ago • การฝึกโมเดลขนาดใหญ่ • 13 views

I²B-LPO เป็นกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งปรับปรุงกลยุทธ์การ rollout เพื่อนำทางโมเดลให้สร้างเส้นทางการอนุมานที่หลากหลายมากขึ้น ผลักดันพฤติกรรมการสำรวจจาก “การสุ่มตัวอย่างซ้ำ” ไปสู่ “การสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ” ในการวัดประสิทธิภาพทางคณิตศาสตร์หลายรายการ วิธีนี้ช่วยเพิ่มทั้งความแม่นยำและความหลากหลายทางความหมาย โดยสูงสุดถึง 5.3% และ 7.4% ตามลำดับ งานนี้ได้รับการยอมรับจาก ACL 2026 Main โดยทีมงาน Intelligent Decision จาก Alibaba DAMO Academy

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการเกิดขึ้นของโมเดลการอนุมาน เช่น DeepSeek-R1 การเรียนรู้แบบเสริมกำลังตามรางวัลที่ตรวจสอบได้ (RLVR) ได้กลายเป็นกระบวนทัศน์การฝึกอบรมที่สำคัญสำหรับการเพิ่มความสามารถทางคณิตศาสตร์และโค้ด แนวคิดหลักคือ: สุ่มตัวอย่างเส้นทางการอนุมานหลายเส้นทางสำหรับปัญหาเดียวกัน เสริมเส้นทางที่ถูกต้องตามสัญญาณรางวัล และระงับเส้นทางที่ผิด ซึ่งคล้ายกับการให้โมเดลเขียนร่างคำตอบหลายฉบับสำหรับปัญหาเดียวกัน จากนั้นเรียนรู้ว่าแนวทางใดควรค่าแก่การรักษาไว้

แนวคิดที่เข้าใจได้ง่ายคือ: หากมีเส้นทางการสุ่มตัวอย่าง (rollout) มากพอ โมเดลจะสามารถสำรวจวิธีแก้ปัญหาได้มากขึ้นและได้รับสัญญาณการอัปเดตที่มีประสิทธิภาพมากขึ้น อย่างไรก็ตาม ในการฝึกอบรมจริง การเพิ่มจำนวนการสุ่มตัวอย่างแบบไม่เลือกไม่ได้นำไปสู่การสำรวจที่มีประสิทธิภาพมากขึ้นเสมอไป สิ่งนี้สอดคล้องกับปัญหาการแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์ (exploration-exploitation trade-off) แบบคลาสสิกในการเรียนรู้แบบเสริมกำลัง: โมเดลต้องใช้ประโยชน์จากรางวัลที่ตรวจสอบได้เพื่อเสริมรูปแบบการอนุมานที่มักจะได้คำตอบที่ถูกต้องในปัจจุบัน ในขณะเดียวกันก็ต้องรักษาความสามารถในการสำรวจเพื่อก้าวออกจากแม่แบบที่มีอยู่และลองทิศทางการแก้ปัญหาใหม่

กลไกการสุ่มตัวอย่าง rollout ในปัจจุบันมีแนวโน้มไปทาง “การใช้ประโยชน์” โดยธรรมชาติ: โมเดลจะบรรจบกันอย่างรวดเร็วไปยังแม่แบบการอนุมานที่มีความน่าจะเป็นสูงจำนวนไม่กี่แบบ เส้นทางที่สร้างขึ้นแม้จะมีถ้อยคำต่างกัน แต่ตรรกะพื้นฐานนั้นมีความเป็นเนื้อเดียวกันสูง ความเป็นเนื้อเดียวกันในการอนุมานนี้ลดความแตกต่างของรางวัลและสัญญาณความได้เปรียบระหว่างเส้นทาง ทำให้การสุ่มตัวอย่างเพิ่มเติมไม่สามารถนำมาซึ่งการอัปเดตที่มีประสิทธิภาพ

ตารางที่ 1: ตัวอย่างประเภท Token ที่มีเอนโทรปีสูง

เอนโทรปี ซึ่งเป็นตัวชี้วัดความไม่แน่นอนของโมเดลในการสร้างขั้นตอนถัดไป ชี้ไปที่โหนดสำคัญของการสำรวจโดยธรรมชาติ ผ่านการทดลองอย่างเป็นระบบ เราพบว่าเอนโทรปีของนโยบายมักมีความสัมพันธ์สูงกับพฤติกรรมต่างๆ เช่น การเปลี่ยนตรรกะและการแก้ไขตนเอง (ดังแสดงในตารางที่ 1) และเป็นสัญญาณที่มีประสิทธิภาพในการนำทางการสำรวจของโมเดล

รูปที่ 1: การเปรียบเทียบกระบวนทัศน์การสำรวจที่แตกต่างกันใน RLVR (a) วิธีการทำให้เป็นมาตรฐานโดยรวมในระดับ Sequence จะเพิ่มเอนโทรปีโดยการปรับการกระจาย token ให้เรียบทั่วโลก แต่มีแนวโน้มที่จะทำให้โมเดลสร้างเนื้อหาที่ยาว ซ้ำซาก หรือไม่เกี่ยวข้องกับการแก้ปัญหา ก่อให้เกิดการสำรวจที่ไม่ได้ผลแบบ “เอนโทรปีสูงแต่ข้อมูลต่ำ” (b) วิธีการรบกวนความน่าจะเป็นในระดับ token จะปรับความน่าจะเป็นเฉพาะที่โหนด token ที่มีเอนโทรปีสูงในพื้นที่เท่านั้น ซึ่งมักจะนำมาซึ่งการเปลี่ยนแปลงในคำเชื่อม คำพ้องความหมาย หรือการแสดงออกในระดับผิวเผินเท่านั้น และยากที่จะทำลายความชอบในการอนุมานที่มีอยู่ของโมเดลที่ผ่านการฝึกอบรมล่วงหน้าเพื่อเปลี่ยนทิศทางการอนุมานในภายหลังอย่างต่อเนื่อง

อย่างไรก็ตาม ในทางปฏิบัติ เราพบว่าที่โหนดที่มีเอนโทรปีสูง การพึ่งพาเฉพาะการทำให้เป็นมาตรฐานโดยรวมในระดับ sequence หรือการรบกวนความน่าจะเป็นในระดับ token ไม่สามารถส่งผลกระทบต่อทิศทางโดยรวมของเส้นทางการอนุมานในภายหลังได้อย่างต่อเนื่อง ดังแสดงในรูปที่ 1 วิธีการเรียนรู้แบบเสริมกำลังตามเอนโทรปีมีปัญหาสำคัญดังต่อไปนี้:

การโกงรางวัล (Reward Hacking): โมเดลจงใจสร้างการกระจายที่ไม่มีความหมายเพื่อหลอกลวงรางวัลที่เกี่ยวข้องกับเอนโทรปี ทำให้เกิดเนื้อหาที่ยาว ซ้ำซาก หรือไม่เกี่ยวข้องกับการแก้ปัญหา
อคติอุปนัย (Inductive Bias): การเปลี่ยนแปลงในระดับคำเท่านั้นไม่สามารถทำลายอคติอุปนัยจากการฝึกอบรมล่วงหน้าของโมเดลได้

เพื่อแก้ปัญหาเหล่านี้ เรานำเสนอ I²B-LPO: ฉีดตัวแปรแฝง (latent variable) ที่โหนดที่มีเอนโทรปีสูงเข้าไปในโมเดล เพื่อให้แน่ใจว่าโมเดลสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ และแนะนำกลไกการตอบกลับเพื่อกรองเส้นทางการอนุมานที่ยาวและไม่มีความหมาย วิธีนี้ช่วยให้ RLVR บรรลุการสำรวจที่มีประสิทธิภาพมากขึ้นภายใต้ทรัพยากรการอนุมานที่จำกัด และก้าวข้ามคอขวดประสิทธิภาพการอนุมานของโมเดลขนาดใหญ่ต่อไป

ชื่อบทความ: I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
ลิงก์บทความ: https://arxiv.org/pdf/2601.05870
ลิงก์โอเพนซอร์ส: https://github.com/denghuilin-cyber/IIB-LPO

01 ภาพรวมของงาน

บทความนี้นำเสนอกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งสนับสนุนให้โมเดลสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ โดยเฉพาะ I²B-LPO ปรับปรุงกลยุทธ์ rollout เพื่อให้โมเดลได้รับสัญญาณการสำรวจที่มีประสิทธิภาพมากขึ้นภายใต้งบประมาณการสุ่มตัวอย่างที่จำกัด ซึ่งช่วยเพิ่มความแม่นยำและความหลากหลายทางความหมายในงานการอนุมานทางคณิตศาสตร์ได้อย่างมีนัยสำคัญ

การวิเคราะห์ทฤษฎีและปรากฏการณ์:

โหนดที่มีเอนโทรปีสูงเป็นจุดแยกการอนุมานที่แท้จริง: เราทำการทดลองแบบกลุ่มตามเอนโทรปีระดับ token ในกระบวนการอนุมาน และพบว่าเมื่อโมเดลอยู่ในช่วงเอนโทรปีสูง ความแตกต่างของประสิทธิภาพระหว่างกลยุทธ์การถอดรหัสต่างๆ จะขยายใหญ่ขึ้นอย่างชัดเจน ในขณะที่ในช่วงเอนโทรปีต่ำ ความแตกต่างนี้ไม่มีนัยสำคัญ สิ่งนี้บ่งชี้ว่าตำแหน่งที่มีเอนโทรปีสูงมักสอดคล้องกับจุดตัดสินใจที่สำคัญ และเหมาะที่จะเป็นตำแหน่งสาขาของเส้นทางการอนุมาน
ความยาวของการอนุมานไม่เท่ากับการอนุมานที่มีประสิทธิภาพ: ในการฝึกอบรม GRPO มาตรฐาน เราสังเกตว่า: ความแม่นยำของโมเดลถึงที่ราบสูงค่อนข้างเร็ว แต่ความยาวของการตอบสนองและอัตราการซ้ำของ 4-gram ยังคงเพิ่มขึ้นอย่างต่อเนื่อง สิ่งนี้บ่งชี้ว่าโมเดลอาจแค่สร้างเนื้อหาที่ยาวและซ้ำซากมากขึ้น ไม่ใช่การอนุมานที่มีประสิทธิภาพมากขึ้น ดังนั้น การสำรวจที่มีประสิทธิภาพไม่เพียงแต่ต้องสร้างเส้นทางมากขึ้นเท่านั้น แต่ยังต้องระบุเส้นทางที่มีข้อมูลอย่างแท้จริงด้วย

นวัตกรรมหลัก:

I²B-LPO: เรานำเสนอกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งรวมการแยกสาขาของเส้นทางการอนุมานที่ขับเคลื่อนด้วยเอนโทรปีและกลไกการให้รางวัลตนเองด้วยคอขวดข้อมูล (Information Bottleneck) และตรวจสอบประสิทธิภาพบนโมเดล Qwen2.5-7B และ Qwen3-14B

การตรวจสอบและผลลัพธ์:

เราตรวจสอบ I²B-LPO บนพื้นฐาน GRPO โดยใช้เกณฑ์มาตรฐานการอนุมานทางคณิตศาสตร์หลายรายการ ผลลัพธ์แสดงให้เห็นว่า I²B-LPO ช่วยเพิ่มทั้งความแม่นยำในการอนุมานและความหลากหลายทางความหมาย พร้อมทั้งรับประกันความหลากหลายในการสำรวจในขณะที่หลีกเลี่ยงความยาวที่มากเกินไป

02 วิธีการเฉพาะ

รูปที่ 2: I²B-LPO เปลี่ยน rollout จาก “การสุ่มตัวอย่างหลายครั้งแบบสุ่ม” เป็นกระบวนการสำรวจที่มีโครงสร้างของ “การแยกสาขาที่โหนดสำคัญ + การคัดกรองเส้นทางคุณภาพสูง” ทำให้โมเดลสามารถสำรวจทิศทางการแก้ปัญหาที่แตกต่างกันในขณะที่หลีกเลี่ยงการกระจายที่ไม่ได้ผล

I²B-LPO ไม่ได้แทนที่กรอบการฝึกอบรม GRPO เดิม แต่ปรับปรุงกระบวนการสร้าง rollout และการอัปเดตนโยบาย: ขั้นแรกให้เส้นทางการอนุมานแยกสาขาที่ตำแหน่งสำคัญ จากนั้นคัดกรองเส้นทางการสำรวจที่มีคุณภาพสูงอย่างแท้จริงเพื่อเข้าร่วมในการอัปเดต

การแยกสาขาตัวแปรแฝงที่ขับเคลื่อนด้วยเอนโทรปี: สำหรับแต่ละ rollout เริ่มต้น I²B-LPO จะระบุ “โหนดที่ลังเล” ที่มีเอนโทรปีของนโยบายสูง และสุ่มตัวอย่างตัวแปรแฝงตามคำนำหน้าการอนุมานปัจจุบัน จากนั้นฉีดเข้าไปในโมเดลผ่านกลไก Pseudo Self-Attention (PSA) เพื่อส่งผลต่อการสร้างในภายหลังอย่างต่อเนื่อง จึงได้เส้นทางการอนุมานที่มีความแตกต่างทางโครงสร้างมากขึ้นหลายเส้นทาง
การให้รางวัลตนเองด้วยคอขวดข้อมูล: สำหรับเส้นทางสาขาที่สร้างขึ้น I²B-LPO ใช้ตัวชี้วัดคอขวดข้อมูลในการจัดลำดับและคัดกรอง โดยคงไว้ซึ่งเส้นทางที่กระชับ มีข้อมูลสูง และมีประโยชน์ต่อคำตอบอย่างแท้จริง กรองการสำรวจที่ไม่ได้ผลซึ่งยาว ซ้ำซาก หรือล่องลอยทางตรรกะ และใช้เส้นทางคุณภาพสูงสำหรับการอัปเดตนโยบาย GRPO

กระบวนการเฉพาะสามารถสรุปได้ดังนี้: rollout เริ่มต้น → การแยกสาขาที่โหนดเอนโทรปีสูง → การสร้างเส้นทางการอนุมานที่เป็นตัวเลือก → การคัดกรองด้วยรางวัลตนเอง IB → การอัปเดตนโยบาย GRPO

การแยกสาขาตัวแปรแฝงที่ขับเคลื่อนด้วยเอนโทรปี

สำหรับเส้นทางการอนุมานเริ่มต้น r=(o1,…,oT) I²B-LPO จะคำนวณเอนโทรปีของนโยบายในแต่ละตำแหน่งการสร้างก่อน:

โดยที่ Ht วัดความไม่แน่นอนของโมเดลในการสร้าง token ถัดไปในขั้นตอนที่ t ยิ่งเอนโทรปีสูง แสดงว่าโมเดล “ลังเล” มากขึ้นในตำแหน่งปัจจุบัน และมีแนวโน้มว่าจะมีทิศทางการอนุมานที่แตกต่างกัน

ดังนั้น เราจึงเลือกตำแหน่งที่มีเอนโทรปีสูงเป็นจุดแยกการอนุมาน:

โดยที่ τ แสดงถึงเกณฑ์เปอร์เซ็นไทล์สูงของเอนโทรปี จากนั้น I²B-LPO จะสุ่มตัวอย่างตัวแปรแฝงตามคำนำหน้าการอนุมานปัจจุบัน ct∗:

ตัวแปรแฝงเหล่านี้แสดงถึงทิศทางการอนุมานที่เป็นไปได้ที่แตกต่างกัน เพื่อให้พวกมันส่งผลต่อการสร้างในภายหลังอย่างต่อเนื่อง ไม่ใช่แค่เปลี่ยนความน่าจะเป็นของ token ใด token หนึ่ง I²B-LPO จึงออกแบบกลไก Pseudo Self-Attention (PSA)

โดยเฉพาะ PSA จะปรับพารามิเตอร์การปรับขนาดของ RMSNorm ด้วยตัวแปรแฝงก่อน:

โดยที่ γ(t) คือความแรงในการฉีดที่ค่อยๆ ลดลงตามกระบวนการสร้าง ซึ่งช่วยให้ตัวแปรแฝงให้คำแนะนำทิศทางในช่วงต้นของการอนุมาน ในขณะเดียวกันก็หลีกเลี่ยงการรบกวนมากเกินไปในช่วงท้าย จากนั้น PSA จะแมปตัวแปรแฝงเป็น Key และ Value เพิ่มเติม และต่อเข้ากับความสนใจดั้งเดิม:

การคำนวณความสนใจสุดท้ายกลายเป็น:

โดยสัญชาตญาณ PSA เปรียบเสมือนการเพิ่ม “คำใบ้แนวคิดโดยนัย” ให้กับโมเดล: มันส่งผลต่อเส้นทางการอนุมานในภายหลังอย่างต่อเนื่อง ทำให้ rollout เดียวกันแยกออกเป็นหลายเส้นทางที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ

การให้รางวัลตนเองด้วยคอขวดข้อมูล

หลังจากสร้างเส้นทางการอนุมานที่เป็นตัวเลือกหลายเส้นทางแล้ว I²B-LPO จะไม่นำทั้งหมดไปใช้ในการฝึกอบรมโดยตรง แต่ใช้ตัวชี้วัดคอขวดข้อมูลในการคัดกรอง แนวคิดหลักคือ: เส้นทางการอนุมานที่มีคุณภาพควรมีความกระชับและมีประโยชน์อย่างเป็นรูปธรรมต่อคำตอบสุดท้าย

เราใช้สูตรการให้คะแนนต่อไปนี้เพื่อวัดคุณภาพของแต่ละเส้นทาง:

โดยที่ I(r;a) แสดงถึงระดับการมีส่วนร่วมของข้อมูลของเส้นทางการอนุมานต่อคำตอบสุดท้าย ในขณะที่ I(q;r) ใช้เพื่อจำกัดเส้นทาง หลีกเลี่ยงไม่ให้ยาวหรือซ้ำซากเกินไป ยิ่งคะแนนนี้สูง แสดงว่าเส้นทางนั้นกระชับ มีประสิทธิภาพ และชี้ไปยังคำตอบที่ถูกต้องโดยตรง

ในที่สุด I²B-LPO จะคงไว้ซึ่งเส้นทาง Top-N ที่มีคะแนนคอขวดข้อมูล (IB) สูงที่สุด:

และใช้เส้นทางเหล่านี้สำหรับการอัปเดตนโยบาย GRPO:

03 ผลการทดลอง

เพื่อประเมินประสิทธิภาพของโมเดลของเราในงานการอนุมานทางคณิตศาสตร์ เราได้ทำการทดลองอย่างกว้างขวางและทดสอบบนชุดข้อมูลเกณฑ์มาตรฐานหลายชุด ต่อไปนี้คือรายละเอียดของส่วนการทดลอง:

ข้อมูลการฝึกอบรม:

ข้อมูลการฝึกอบรมส่วนใหญ่มาจากชุดข้อมูล DAPO และ MATH เพื่อเพิ่มประสิทธิภาพการฝึกอบรม เราได้กรองตัวอย่างที่ง่ายเกินไป ยากเกินไป และมีแนวโน้มที่จะสร้างเอาต์พุตที่ยาวเกินไป ในที่สุดก็เก็บตัวอย่าง MATH 6,486 ตัวอย่างและตัวอย่าง DAPO 13,583 ตัวอย่างสำหรับการฝึกอบรม

เกณฑ์มาตรฐาน (Benchmarks):

AIME2025 / AIME2024: เกณฑ์มาตรฐานการแข่งขันคณิตศาสตร์ระดับมัธยมปลายของสหรัฐอเมริกา ขั้นตอนการแก้ปัญหาซับซ้อน
MATH-500: ครอบคลุมหลายหัวข้อ เช่น พีชคณิต เรขาคณิต ทฤษฎีจำนวน ความน่าจะเป็น ใช้สำหรับประเมินความสามารถในการอนุมานทางคณิตศาสตร์ทั่วไป
OlympiadBench: เกณฑ์มาตรฐานคณิตศาสตร์ระดับโอลิมปิกที่มีความยากสูง เน้นการอนุมานแบบลูกโซ่ยาวและความสามารถในการบูรณาการข้ามความรู้
GSM8K: เกณฑ์มาตรฐานโจทย์ปัญหาคณิตศาสตร์ประยุกต์ระดับมัธยมต้น ใช้สำหรับประเมินการอนุมานทางคณิตศาสตร์พื้นฐานและความสามารถในการแก้ปัญหาด้วยภาษาธรรมชาติ

ตารางที่ 2: การเปรียบเทียบความแม่นยำในการอนุมานของวิธีการต่างๆ

ตารางที่ 3: การเปรียบเทียบตัวชี้วัดความหลากหลายในการอนุมานของวิธีการต่างๆ

ตารางที่ 2 และตารางที่ 3 ยืนยันข้อได้เปรียบของ I²B-LPO ในด้านความแม่นยำในการอนุมานและความหลากหลายในการสร้างตามลำดับ ผลลัพธ์แสดงให้เห็นว่า I²B-LPO สามารถปรับปรุงประสิทธิภาพได้อย่างเสถียรในขนาดโมเดลที่แตกต่างกันและเกณฑ์มาตรฐานทางคณิตศาสตร์หลายรายการ ไม่เพียงแต่ตอบได้แม่นยำขึ้นเท่านั้น แต่ยังสร้างเส้นทางการอนุมานที่หลากหลายมากขึ้น

รูปที่ 3: การเปรียบเทียบการกระจายเอนโทรปีและพลวัตการฝึกอบรมภายใต้วิธีการต่างๆ (a) แสดงความสัมพันธ์ระหว่างความน่าจะเป็นของ token และการกระจายเอนโทรปีภายใต้วิธีการต่างๆ (b) แสดงแนวโน้มการเปลี่ยนแปลงของเอนโทรปีเฉลี่ยระหว่างกระบวนการฝึกอบรม เมื่อเทียบกับวิธีอื่น I²B-LPO สามารถรักษาระดับเอนโทรปีที่เสถียรกว่าในช่วงท้ายของการฝึกอบรม

รูปที่ 3 ใช้เพื่อวิเคราะห์ว่า I²B-LPO ปรับปรุงพฤติกรรมการสำรวจของโมเดลได้จริงหรือไม่ ดังแสดงในรูปที่ 3 (a) ในแผนภาพกระจาย token ของ GRPO มาตรฐานมีแนวโน้มที่จะกระจุกตัวอยู่ในบริเวณเอนโทรปีต่ำ แสดงให้เห็นว่าโมเดลค่อยๆ “แน่นอน” ขึ้น พื้นที่การสำรวจถูกบีบอัด ในขณะที่ Entropy Regularization (การทำให้เอนโทรปีเป็นปกติ) แม้จะเพิ่มเอนโทรปี แต่มักมีจุดเอนโทรปีสูงผิดปกติ ซึ่งนำไปสู่การกระจายที่ไม่ได้ผล I²B-LPO รักษาการกระจายความน่าจะเป็น-เอนโทรปีที่สมดุลกว่า (b) เส้นโค้งแสดงให้เห็นเพิ่มเติมว่า I²B-LPO สามารถรักษาระดับเอนโทรปีที่ค่อนข้างสูงและเสถียรในช่วงท้ายของการฝึกอบรม ป้องกันไม่ให้โมเดลตกอยู่ในแม่แบบการอนุมานเดียวเร็วเกินไป จึงคงความสามารถในการสำรวจที่มีประสิทธิภาพ

รูปที่ 4: การเปรียบเทียบรูปแบบการกระตุ้นของ Attention Head ภายใต้โจทย์ที่มีระดับความยากต่างกัน สีแดงแสดงถึง Attention Head ที่ทำงานมากขึ้นในโจทย์ยาก สีน้ำเงินแสดงถึง Attention Head ที่ทำงานมากขึ้นในโจทย์ง่าย

เพื่อตรวจสอบว่าการแยกสาขาตัวแปรแฝงนำมาซึ่งการนำทางการอนุมานที่มีโครงสร้างหรือการฉีดสัญญาณรบกวนแบบสุ่ม เราได้แสดงรูปแบบการกระตุ้นความสนใจ ดังแสดงในรูปที่ 4 กลไกการฉีดชั้นอินพุตมีแนวโน้มที่จะถูกเจือจางโดยชั้นลึก ในขณะที่กลไกการฉีดชั้น softmax นำไปสู่การกระตุ้นแบบกระจาย ในทางตรงกันข้าม การฉีด PSA (Pseudo Self-Attention) ที่ใช้โดย I²B-LPO สามารถกระตุ้น Attention Head ที่เกี่ยวข้องกับโจทย์ยากในชั้นลึก ทำให้เกิดรูปแบบการกระตุ้นการอนุมานที่มีโครงสร้างมากขึ้น

เรายังวิเคราะห์เส้นทางคุณภาพต่ำที่ถูกคัดกรองโดยกลไกการให้รางวัลตนเอง และพบว่าเส้นทางที่มีคะแนน IB ต่ำส่วนใหญ่มีปัญหาทั่วไปสามประเภทดังต่อไปนี้:

คลุมเครือและยาว: ดูเหมือนกำลังวิเคราะห์อย่างจริงจัง แต่จริงๆ แล้วมีเนื้อหาที่ไม่มีข้อมูลจำนวนมาก เช่น “Let me think” “It is important to note”
วนซ้ำ: พูดซ้ำโจทย์หรือขั้นตอนกลางซ้ำแล้วซ้ำเล่า ทำให้ความยาวเพิ่มขึ้น แต่ไม่ได้เพิ่มข้อมูลการอนุมานใดๆ
ล่องลอยทางตรรกะ: การแสดงออกอาจกระชับ แต่สูตรสำคัญหรือทิศทางการอนุมานผิดพลาด ไม่มีประโยชน์ในการได้คำตอบที่ถูกต้อง

ในทางตรงกันข้าม เส้นทางที่มีคะแนน IB สูงมักจะสั้นกว่า ตรงประเด็นกว่า และแต่ละขั้นตอนมีส่วนช่วยต่อคำตอบสุดท้าย สิ่งนี้บ่งชี้ว่ากลไกการให้รางวัลตนเองด้วยคอขวดข้อมูลไม่ได้แค่ลงโทษ “การพูดมาก” แต่กำลังคัดกรองเส้นทางการอนุมานที่กระชับ มีประสิทธิภาพ และมีความสามารถในการทำนายอย่างแท้จริง การวิเคราะห์กรณีศึกษาแสดงในรูปที่ 5

รูปที่ 5: การเปรียบเทียบเส้นทางการอนุมานที่มีคะแนน IB สูงและคะแนน IB ต่ำ

สรุป

งานวิจัยนี้มุ่งเน้นไปที่การเพิ่มประสิทธิภาพการสำรวจและคุณภาพการอนุมานในการฝึกอบรมหลัง RLVR ผ่านการวิเคราะห์อย่างเป็นระบบ เราพบว่า rollout แบบสุ่มมาตรฐานมีแนวโน้มที่จะทำให้โมเดลบรรจบกันไปยังแม่แบบการอนุมานที่มีความน่าจะเป็นสูงจำนวนไม่กี่แบบ ส่งผลให้เส้นทางการอนุมานหลายเส้นทางมีพื้นผิวที่แตกต่างกันแต่พื้นฐานเป็นเนื้อเดียวกัน ซึ่งทำให้ความแตกต่างของรางวัลและสัญญาณการเรียนรู้ที่มีประสิทธิภาพระหว่างเส้นทางลดลง

จากการค้นพบนี้ เรานำเสนอกรอบการทำงานเสริมการสำรวจ I²B-LPO วิธีนี้ผลักดันการสำรวจใน RLVR จาก “การสุ่มตัวอย่างคำตอบมากขึ้นซ้ำๆ” ไปสู่ “การสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ” I²B-LPO บรรลุการสำรวจที่มีประสิทธิภาพผ่านกลไกสำคัญสองประการ:

การแยกสาขาที่โหนดเอนโทรปีสูง: สร้างเส้นทางการอนุมานที่หลากหลายในตำแหน่งสำคัญที่โมเดลไม่แน่ใจอย่างแท้จริง
การให้รางวัลตนเองด้วยคอขวดข้อมูล: คัดกรองเส้นทางคุณภาพสูงที่กระชับ มีข้อมูลสูง และตรงประเด็น กรองการอนุมานที่ยาวและไม่ได้ผล

ผลการทดลองแสดงให้เห็นว่า I²B-LPO สามารถเพิ่มทั้งความแม่นยำในการอนุมานและความหลากหลายทางความหมายบนเกณฑ์มาตรฐานการอนุมานทางคณิตศาสตร์หลายรายการ โดยบรรลุการสำรวจ RLVR ที่มีประสิทธิภาพและเชื่อถือได้มากขึ้นภายใต้งบประมาณการสุ่มตัวอย่างที่จำกัด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34520

Like (0)

0 0

ยุคฟิสิกส์ AI กับ “CUDA”: การจำลองกลายเป็นหัวใจสำคัญของข้อมูลและการประเมินผลหุ่นยนต์ได้อย่างไร?

Previous 1 day ago

คืนก่อนที่ระบบควบคุมของตัวเร่ง AI แบบปรับโครงสร้างได้จะล่ม: MINISA ใช้ Virtual Neuron ลดการหยุดชะงักของคำสั่งจาก 96.9% ให้แทบไม่มีความสำคัญ

Next 7 hours ago

การฝึกโมเดลขนาดใหญ่

OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI

ตลอดสัปดาห์ที่ผ่านมา เอไอเอเจนต์รูปการ์ตูนกุ้งมังกรสีแดงชื่อ OpenClaw ได้รับความสนใจอย่างกว้างขวาง ประสบการณ์การใช้เอไอเอเจนต์ที่สามารถทำงานเฉพาะเจาะจงนี้ค่อนข้างน่าตื่นเต้น: ตั้งแ…

2026年3月16日
220000
การฝึกโมเดลขนาดใหญ่

ทำลายกำแพงภาษา: ใช้เซลล์ประสาทออโตมาตาเพื่อฝึกโมเดลขนาดใหญ่ล่วงหน้า เพิ่มประสิทธิภาพ 6% และเสริมความสามารถในการให้เหตุผล

หากวันหนึ่งโมเดลภาษาขนาดใหญ่ไม่ต้องพึ่งพาภาษามนุษย์ในการฝึกฝนอีกต่อไป จะเกิดอะไรขึ้น? ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าทางความสามารถของโมเดลขนาดใหญ่มักตั้งอยู่บนพื้นฐานหนึ่ง: ข้…

2026年3月14日
235000
การฝึกโมเดลขนาดใหญ่

MetaClaw: ระบบการเรียนรู้เสริมกำลังออนไลน์ที่ทำให้ AI พัฒนาตัวเองในการแชท โดยไม่ต้องใช้คลัสเตอร์ GPU

การให้ผู้ช่วยสนทนา AI แค่ทำงานให้สำเร็จนั้นไม่เพียงพออีกต่อไป ตอนนี้ นักพัฒนากำลังมุ่งมั่นที่จะทำให้ AI สามารถวิวัฒนาการตัวเองได้ ประเด็นสำคัญคือ นี่ไม่ใช่การปรับปรุงประสิทธิภาพสำ…

2026年3月12日
291000
การฝึกโมเดลขนาดใหญ่

Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง

ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…

2026年2月20日
298000
การฝึกโมเดลขนาดใหญ่

ที

งานวิจัยที่ก้าวล้ำของทีม Kaiming He: GeoPT ใช้การฝึกฝนล่วงหน้าด้วยไดนามิกสังเคราะห์ ทำให้ AI เรียนรู้กฎฟิสิกส์ด้วยตัวเอง ประหยัดข้อมูลจำลองได้ถึง 60% ทรัพย์สิน 3D แบบสถิตขาดข้อมูลไ…

2026年2月26日
299000