I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

I²B-LPO เป็นกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งปรับปรุงกลยุทธ์การ rollout เพื่อนำทางโมเดลให้สร้างเส้นทางการอนุมานที่หลากหลายมากขึ้น ผลักดันพฤติกรรมการสำรวจจาก “การสุ่มตัวอย่างซ้ำ” ไปสู่ “การสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ” ในการวัดประสิทธิภาพทางคณิตศาสตร์หลายรายการ วิธีนี้ช่วยเพิ่มทั้งความแม่นยำและความหลากหลายทางความหมาย โดยสูงสุดถึง 5.3% และ 7.4% ตามลำดับ งานนี้ได้รับการยอมรับจาก ACL 2026 Main โดยทีมงาน Intelligent Decision จาก Alibaba DAMO Academy

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการเกิดขึ้นของโมเดลการอนุมาน เช่น DeepSeek-R1 การเรียนรู้แบบเสริมกำลังตามรางวัลที่ตรวจสอบได้ (RLVR) ได้กลายเป็นกระบวนทัศน์การฝึกอบรมที่สำคัญสำหรับการเพิ่มความสามารถทางคณิตศาสตร์และโค้ด แนวคิดหลักคือ: สุ่มตัวอย่างเส้นทางการอนุมานหลายเส้นทางสำหรับปัญหาเดียวกัน เสริมเส้นทางที่ถูกต้องตามสัญญาณรางวัล และระงับเส้นทางที่ผิด ซึ่งคล้ายกับการให้โมเดลเขียนร่างคำตอบหลายฉบับสำหรับปัญหาเดียวกัน จากนั้นเรียนรู้ว่าแนวทางใดควรค่าแก่การรักษาไว้

แนวคิดที่เข้าใจได้ง่ายคือ: หากมีเส้นทางการสุ่มตัวอย่าง (rollout) มากพอ โมเดลจะสามารถสำรวจวิธีแก้ปัญหาได้มากขึ้นและได้รับสัญญาณการอัปเดตที่มีประสิทธิภาพมากขึ้น อย่างไรก็ตาม ในการฝึกอบรมจริง การเพิ่มจำนวนการสุ่มตัวอย่างแบบไม่เลือกไม่ได้นำไปสู่การสำรวจที่มีประสิทธิภาพมากขึ้นเสมอไป สิ่งนี้สอดคล้องกับปัญหาการแลกเปลี่ยนระหว่างการสำรวจและการใช้ประโยชน์ (exploration-exploitation trade-off) แบบคลาสสิกในการเรียนรู้แบบเสริมกำลัง: โมเดลต้องใช้ประโยชน์จากรางวัลที่ตรวจสอบได้เพื่อเสริมรูปแบบการอนุมานที่มักจะได้คำตอบที่ถูกต้องในปัจจุบัน ในขณะเดียวกันก็ต้องรักษาความสามารถในการสำรวจเพื่อก้าวออกจากแม่แบบที่มีอยู่และลองทิศทางการแก้ปัญหาใหม่

กลไกการสุ่มตัวอย่าง rollout ในปัจจุบันมีแนวโน้มไปทาง “การใช้ประโยชน์” โดยธรรมชาติ: โมเดลจะบรรจบกันอย่างรวดเร็วไปยังแม่แบบการอนุมานที่มีความน่าจะเป็นสูงจำนวนไม่กี่แบบ เส้นทางที่สร้างขึ้นแม้จะมีถ้อยคำต่างกัน แต่ตรรกะพื้นฐานนั้นมีความเป็นเนื้อเดียวกันสูง ความเป็นเนื้อเดียวกันในการอนุมานนี้ลดความแตกต่างของรางวัลและสัญญาณความได้เปรียบระหว่างเส้นทาง ทำให้การสุ่มตัวอย่างเพิ่มเติมไม่สามารถนำมาซึ่งการอัปเดตที่มีประสิทธิภาพ

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

ตารางที่ 1: ตัวอย่างประเภท Token ที่มีเอนโทรปีสูง

เอนโทรปี ซึ่งเป็นตัวชี้วัดความไม่แน่นอนของโมเดลในการสร้างขั้นตอนถัดไป ชี้ไปที่โหนดสำคัญของการสำรวจโดยธรรมชาติ ผ่านการทดลองอย่างเป็นระบบ เราพบว่าเอนโทรปีของนโยบายมักมีความสัมพันธ์สูงกับพฤติกรรมต่างๆ เช่น การเปลี่ยนตรรกะและการแก้ไขตนเอง (ดังแสดงในตารางที่ 1) และเป็นสัญญาณที่มีประสิทธิภาพในการนำทางการสำรวจของโมเดล

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

รูปที่ 1: การเปรียบเทียบกระบวนทัศน์การสำรวจที่แตกต่างกันใน RLVR (a) วิธีการทำให้เป็นมาตรฐานโดยรวมในระดับ Sequence จะเพิ่มเอนโทรปีโดยการปรับการกระจาย token ให้เรียบทั่วโลก แต่มีแนวโน้มที่จะทำให้โมเดลสร้างเนื้อหาที่ยาว ซ้ำซาก หรือไม่เกี่ยวข้องกับการแก้ปัญหา ก่อให้เกิดการสำรวจที่ไม่ได้ผลแบบ “เอนโทรปีสูงแต่ข้อมูลต่ำ” (b) วิธีการรบกวนความน่าจะเป็นในระดับ token จะปรับความน่าจะเป็นเฉพาะที่โหนด token ที่มีเอนโทรปีสูงในพื้นที่เท่านั้น ซึ่งมักจะนำมาซึ่งการเปลี่ยนแปลงในคำเชื่อม คำพ้องความหมาย หรือการแสดงออกในระดับผิวเผินเท่านั้น และยากที่จะทำลายความชอบในการอนุมานที่มีอยู่ของโมเดลที่ผ่านการฝึกอบรมล่วงหน้าเพื่อเปลี่ยนทิศทางการอนุมานในภายหลังอย่างต่อเนื่อง

อย่างไรก็ตาม ในทางปฏิบัติ เราพบว่าที่โหนดที่มีเอนโทรปีสูง การพึ่งพาเฉพาะการทำให้เป็นมาตรฐานโดยรวมในระดับ sequence หรือการรบกวนความน่าจะเป็นในระดับ token ไม่สามารถส่งผลกระทบต่อทิศทางโดยรวมของเส้นทางการอนุมานในภายหลังได้อย่างต่อเนื่อง ดังแสดงในรูปที่ 1 วิธีการเรียนรู้แบบเสริมกำลังตามเอนโทรปีมีปัญหาสำคัญดังต่อไปนี้:

  1. การโกงรางวัล (Reward Hacking): โมเดลจงใจสร้างการกระจายที่ไม่มีความหมายเพื่อหลอกลวงรางวัลที่เกี่ยวข้องกับเอนโทรปี ทำให้เกิดเนื้อหาที่ยาว ซ้ำซาก หรือไม่เกี่ยวข้องกับการแก้ปัญหา
  2. อคติอุปนัย (Inductive Bias): การเปลี่ยนแปลงในระดับคำเท่านั้นไม่สามารถทำลายอคติอุปนัยจากการฝึกอบรมล่วงหน้าของโมเดลได้

เพื่อแก้ปัญหาเหล่านี้ เรานำเสนอ I²B-LPO: ฉีดตัวแปรแฝง (latent variable) ที่โหนดที่มีเอนโทรปีสูงเข้าไปในโมเดล เพื่อให้แน่ใจว่าโมเดลสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ และแนะนำกลไกการตอบกลับเพื่อกรองเส้นทางการอนุมานที่ยาวและไม่มีความหมาย วิธีนี้ช่วยให้ RLVR บรรลุการสำรวจที่มีประสิทธิภาพมากขึ้นภายใต้ทรัพยากรการอนุมานที่จำกัด และก้าวข้ามคอขวดประสิทธิภาพการอนุมานของโมเดลขนาดใหญ่ต่อไป

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

  • ชื่อบทความ: I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
  • ลิงก์บทความ: https://arxiv.org/pdf/2601.05870
  • ลิงก์โอเพนซอร์ส: https://github.com/denghuilin-cyber/IIB-LPO

01 ภาพรวมของงาน

บทความนี้นำเสนอกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งสนับสนุนให้โมเดลสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ โดยเฉพาะ I²B-LPO ปรับปรุงกลยุทธ์ rollout เพื่อให้โมเดลได้รับสัญญาณการสำรวจที่มีประสิทธิภาพมากขึ้นภายใต้งบประมาณการสุ่มตัวอย่างที่จำกัด ซึ่งช่วยเพิ่มความแม่นยำและความหลากหลายทางความหมายในงานการอนุมานทางคณิตศาสตร์ได้อย่างมีนัยสำคัญ

การวิเคราะห์ทฤษฎีและปรากฏการณ์:

  1. โหนดที่มีเอนโทรปีสูงเป็นจุดแยกการอนุมานที่แท้จริง: เราทำการทดลองแบบกลุ่มตามเอนโทรปีระดับ token ในกระบวนการอนุมาน และพบว่าเมื่อโมเดลอยู่ในช่วงเอนโทรปีสูง ความแตกต่างของประสิทธิภาพระหว่างกลยุทธ์การถอดรหัสต่างๆ จะขยายใหญ่ขึ้นอย่างชัดเจน ในขณะที่ในช่วงเอนโทรปีต่ำ ความแตกต่างนี้ไม่มีนัยสำคัญ สิ่งนี้บ่งชี้ว่าตำแหน่งที่มีเอนโทรปีสูงมักสอดคล้องกับจุดตัดสินใจที่สำคัญ และเหมาะที่จะเป็นตำแหน่งสาขาของเส้นทางการอนุมาน
  2. ความยาวของการอนุมานไม่เท่ากับการอนุมานที่มีประสิทธิภาพ: ในการฝึกอบรม GRPO มาตรฐาน เราสังเกตว่า: ความแม่นยำของโมเดลถึงที่ราบสูงค่อนข้างเร็ว แต่ความยาวของการตอบสนองและอัตราการซ้ำของ 4-gram ยังคงเพิ่มขึ้นอย่างต่อเนื่อง สิ่งนี้บ่งชี้ว่าโมเดลอาจแค่สร้างเนื้อหาที่ยาวและซ้ำซากมากขึ้น ไม่ใช่การอนุมานที่มีประสิทธิภาพมากขึ้น ดังนั้น การสำรวจที่มีประสิทธิภาพไม่เพียงแต่ต้องสร้างเส้นทางมากขึ้นเท่านั้น แต่ยังต้องระบุเส้นทางที่มีข้อมูลอย่างแท้จริงด้วย

นวัตกรรมหลัก:

I²B-LPO: เรานำเสนอกรอบการทำงานเสริมการสำรวจสำหรับการฝึกอบรมหลัง RLVR ซึ่งรวมการแยกสาขาของเส้นทางการอนุมานที่ขับเคลื่อนด้วยเอนโทรปีและกลไกการให้รางวัลตนเองด้วยคอขวดข้อมูล (Information Bottleneck) และตรวจสอบประสิทธิภาพบนโมเดล Qwen2.5-7B และ Qwen3-14B

การตรวจสอบและผลลัพธ์:

เราตรวจสอบ I²B-LPO บนพื้นฐาน GRPO โดยใช้เกณฑ์มาตรฐานการอนุมานทางคณิตศาสตร์หลายรายการ ผลลัพธ์แสดงให้เห็นว่า I²B-LPO ช่วยเพิ่มทั้งความแม่นยำในการอนุมานและความหลากหลายทางความหมาย พร้อมทั้งรับประกันความหลากหลายในการสำรวจในขณะที่หลีกเลี่ยงความยาวที่มากเกินไป

02 วิธีการเฉพาะ

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

รูปที่ 2: I²B-LPO เปลี่ยน rollout จาก “การสุ่มตัวอย่างหลายครั้งแบบสุ่ม” เป็นกระบวนการสำรวจที่มีโครงสร้างของ “การแยกสาขาที่โหนดสำคัญ + การคัดกรองเส้นทางคุณภาพสูง” ทำให้โมเดลสามารถสำรวจทิศทางการแก้ปัญหาที่แตกต่างกันในขณะที่หลีกเลี่ยงการกระจายที่ไม่ได้ผล

I²B-LPO ไม่ได้แทนที่กรอบการฝึกอบรม GRPO เดิม แต่ปรับปรุงกระบวนการสร้าง rollout และการอัปเดตนโยบาย: ขั้นแรกให้เส้นทางการอนุมานแยกสาขาที่ตำแหน่งสำคัญ จากนั้นคัดกรองเส้นทางการสำรวจที่มีคุณภาพสูงอย่างแท้จริงเพื่อเข้าร่วมในการอัปเดต

  1. การแยกสาขาตัวแปรแฝงที่ขับเคลื่อนด้วยเอนโทรปี: สำหรับแต่ละ rollout เริ่มต้น I²B-LPO จะระบุ “โหนดที่ลังเล” ที่มีเอนโทรปีของนโยบายสูง และสุ่มตัวอย่างตัวแปรแฝงตามคำนำหน้าการอนุมานปัจจุบัน จากนั้นฉีดเข้าไปในโมเดลผ่านกลไก Pseudo Self-Attention (PSA) เพื่อส่งผลต่อการสร้างในภายหลังอย่างต่อเนื่อง จึงได้เส้นทางการอนุมานที่มีความแตกต่างทางโครงสร้างมากขึ้นหลายเส้นทาง
  2. การให้รางวัลตนเองด้วยคอขวดข้อมูล: สำหรับเส้นทางสาขาที่สร้างขึ้น I²B-LPO ใช้ตัวชี้วัดคอขวดข้อมูลในการจัดลำดับและคัดกรอง โดยคงไว้ซึ่งเส้นทางที่กระชับ มีข้อมูลสูง และมีประโยชน์ต่อคำตอบอย่างแท้จริง กรองการสำรวจที่ไม่ได้ผลซึ่งยาว ซ้ำซาก หรือล่องลอยทางตรรกะ และใช้เส้นทางคุณภาพสูงสำหรับการอัปเดตนโยบาย GRPO

กระบวนการเฉพาะสามารถสรุปได้ดังนี้: rollout เริ่มต้น → การแยกสาขาที่โหนดเอนโทรปีสูง → การสร้างเส้นทางการอนุมานที่เป็นตัวเลือก → การคัดกรองด้วยรางวัลตนเอง IB → การอัปเดตนโยบาย GRPO

  1. การแยกสาขาตัวแปรแฝงที่ขับเคลื่อนด้วยเอนโทรปี

สำหรับเส้นทางการอนุมานเริ่มต้น r=(o1,…,oT) I²B-LPO จะคำนวณเอนโทรปีของนโยบายในแต่ละตำแหน่งการสร้างก่อน:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

โดยที่ Ht วัดความไม่แน่นอนของโมเดลในการสร้าง token ถัดไปในขั้นตอนที่ t ยิ่งเอนโทรปีสูง แสดงว่าโมเดล “ลังเล” มากขึ้นในตำแหน่งปัจจุบัน และมีแนวโน้มว่าจะมีทิศทางการอนุมานที่แตกต่างกัน

ดังนั้น เราจึงเลือกตำแหน่งที่มีเอนโทรปีสูงเป็นจุดแยกการอนุมาน:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

โดยที่ τ แสดงถึงเกณฑ์เปอร์เซ็นไทล์สูงของเอนโทรปี จากนั้น I²B-LPO จะสุ่มตัวอย่างตัวแปรแฝงตามคำนำหน้าการอนุมานปัจจุบัน ct∗:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

ตัวแปรแฝงเหล่านี้แสดงถึงทิศทางการอนุมานที่เป็นไปได้ที่แตกต่างกัน เพื่อให้พวกมันส่งผลต่อการสร้างในภายหลังอย่างต่อเนื่อง ไม่ใช่แค่เปลี่ยนความน่าจะเป็นของ token ใด token หนึ่ง I²B-LPO จึงออกแบบกลไก Pseudo Self-Attention (PSA)

โดยเฉพาะ PSA จะปรับพารามิเตอร์การปรับขนาดของ RMSNorm ด้วยตัวแปรแฝงก่อน:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

โดยที่ γ(t) คือความแรงในการฉีดที่ค่อยๆ ลดลงตามกระบวนการสร้าง ซึ่งช่วยให้ตัวแปรแฝงให้คำแนะนำทิศทางในช่วงต้นของการอนุมาน ในขณะเดียวกันก็หลีกเลี่ยงการรบกวนมากเกินไปในช่วงท้าย จากนั้น PSA จะแมปตัวแปรแฝงเป็น Key และ Value เพิ่มเติม และต่อเข้ากับความสนใจดั้งเดิม:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

การคำนวณความสนใจสุดท้ายกลายเป็น:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

โดยสัญชาตญาณ PSA เปรียบเสมือนการเพิ่ม “คำใบ้แนวคิดโดยนัย” ให้กับโมเดล: มันส่งผลต่อเส้นทางการอนุมานในภายหลังอย่างต่อเนื่อง ทำให้ rollout เดียวกันแยกออกเป็นหลายเส้นทางที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ

  1. การให้รางวัลตนเองด้วยคอขวดข้อมูล

หลังจากสร้างเส้นทางการอนุมานที่เป็นตัวเลือกหลายเส้นทางแล้ว I²B-LPO จะไม่นำทั้งหมดไปใช้ในการฝึกอบรมโดยตรง แต่ใช้ตัวชี้วัดคอขวดข้อมูลในการคัดกรอง แนวคิดหลักคือ: เส้นทางการอนุมานที่มีคุณภาพควรมีความกระชับและมีประโยชน์อย่างเป็นรูปธรรมต่อคำตอบสุดท้าย

เราใช้สูตรการให้คะแนนต่อไปนี้เพื่อวัดคุณภาพของแต่ละเส้นทาง:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

โดยที่ I(r;a) แสดงถึงระดับการมีส่วนร่วมของข้อมูลของเส้นทางการอนุมานต่อคำตอบสุดท้าย ในขณะที่ I(q;r) ใช้เพื่อจำกัดเส้นทาง หลีกเลี่ยงไม่ให้ยาวหรือซ้ำซากเกินไป ยิ่งคะแนนนี้สูง แสดงว่าเส้นทางนั้นกระชับ มีประสิทธิภาพ และชี้ไปยังคำตอบที่ถูกต้องโดยตรง

ในที่สุด I²B-LPO จะคงไว้ซึ่งเส้นทาง Top-N ที่มีคะแนนคอขวดข้อมูล (IB) สูงที่สุด:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

และใช้เส้นทางเหล่านี้สำหรับการอัปเดตนโยบาย GRPO:

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

03 ผลการทดลอง

เพื่อประเมินประสิทธิภาพของโมเดลของเราในงานการอนุมานทางคณิตศาสตร์ เราได้ทำการทดลองอย่างกว้างขวางและทดสอบบนชุดข้อมูลเกณฑ์มาตรฐานหลายชุด ต่อไปนี้คือรายละเอียดของส่วนการทดลอง:

ข้อมูลการฝึกอบรม:

ข้อมูลการฝึกอบรมส่วนใหญ่มาจากชุดข้อมูล DAPO และ MATH เพื่อเพิ่มประสิทธิภาพการฝึกอบรม เราได้กรองตัวอย่างที่ง่ายเกินไป ยากเกินไป และมีแนวโน้มที่จะสร้างเอาต์พุตที่ยาวเกินไป ในที่สุดก็เก็บตัวอย่าง MATH 6,486 ตัวอย่างและตัวอย่าง DAPO 13,583 ตัวอย่างสำหรับการฝึกอบรม

เกณฑ์มาตรฐาน (Benchmarks):

  • AIME2025 / AIME2024: เกณฑ์มาตรฐานการแข่งขันคณิตศาสตร์ระดับมัธยมปลายของสหรัฐอเมริกา ขั้นตอนการแก้ปัญหาซับซ้อน
  • MATH-500: ครอบคลุมหลายหัวข้อ เช่น พีชคณิต เรขาคณิต ทฤษฎีจำนวน ความน่าจะเป็น ใช้สำหรับประเมินความสามารถในการอนุมานทางคณิตศาสตร์ทั่วไป
  • OlympiadBench: เกณฑ์มาตรฐานคณิตศาสตร์ระดับโอลิมปิกที่มีความยากสูง เน้นการอนุมานแบบลูกโซ่ยาวและความสามารถในการบูรณาการข้ามความรู้
  • GSM8K: เกณฑ์มาตรฐานโจทย์ปัญหาคณิตศาสตร์ประยุกต์ระดับมัธยมต้น ใช้สำหรับประเมินการอนุมานทางคณิตศาสตร์พื้นฐานและความสามารถในการแก้ปัญหาด้วยภาษาธรรมชาติ

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

ตารางที่ 2: การเปรียบเทียบความแม่นยำในการอนุมานของวิธีการต่างๆ

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

ตารางที่ 3: การเปรียบเทียบตัวชี้วัดความหลากหลายในการอนุมานของวิธีการต่างๆ

ตารางที่ 2 และตารางที่ 3 ยืนยันข้อได้เปรียบของ I²B-LPO ในด้านความแม่นยำในการอนุมานและความหลากหลายในการสร้างตามลำดับ ผลลัพธ์แสดงให้เห็นว่า I²B-LPO สามารถปรับปรุงประสิทธิภาพได้อย่างเสถียรในขนาดโมเดลที่แตกต่างกันและเกณฑ์มาตรฐานทางคณิตศาสตร์หลายรายการ ไม่เพียงแต่ตอบได้แม่นยำขึ้นเท่านั้น แต่ยังสร้างเส้นทางการอนุมานที่หลากหลายมากขึ้น

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

รูปที่ 3: การเปรียบเทียบการกระจายเอนโทรปีและพลวัตการฝึกอบรมภายใต้วิธีการต่างๆ (a) แสดงความสัมพันธ์ระหว่างความน่าจะเป็นของ token และการกระจายเอนโทรปีภายใต้วิธีการต่างๆ (b) แสดงแนวโน้มการเปลี่ยนแปลงของเอนโทรปีเฉลี่ยระหว่างกระบวนการฝึกอบรม เมื่อเทียบกับวิธีอื่น I²B-LPO สามารถรักษาระดับเอนโทรปีที่เสถียรกว่าในช่วงท้ายของการฝึกอบรม

รูปที่ 3 ใช้เพื่อวิเคราะห์ว่า I²B-LPO ปรับปรุงพฤติกรรมการสำรวจของโมเดลได้จริงหรือไม่ ดังแสดงในรูปที่ 3 (a) ในแผนภาพกระจาย token ของ GRPO มาตรฐานมีแนวโน้มที่จะกระจุกตัวอยู่ในบริเวณเอนโทรปีต่ำ แสดงให้เห็นว่าโมเดลค่อยๆ “แน่นอน” ขึ้น พื้นที่การสำรวจถูกบีบอัด ในขณะที่ Entropy Regularization (การทำให้เอนโทรปีเป็นปกติ) แม้จะเพิ่มเอนโทรปี แต่มักมีจุดเอนโทรปีสูงผิดปกติ ซึ่งนำไปสู่การกระจายที่ไม่ได้ผล I²B-LPO รักษาการกระจายความน่าจะเป็น-เอนโทรปีที่สมดุลกว่า (b) เส้นโค้งแสดงให้เห็นเพิ่มเติมว่า I²B-LPO สามารถรักษาระดับเอนโทรปีที่ค่อนข้างสูงและเสถียรในช่วงท้ายของการฝึกอบรม ป้องกันไม่ให้โมเดลตกอยู่ในแม่แบบการอนุมานเดียวเร็วเกินไป จึงคงความสามารถในการสำรวจที่มีประสิทธิภาพ

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

รูปที่ 4: การเปรียบเทียบรูปแบบการกระตุ้นของ Attention Head ภายใต้โจทย์ที่มีระดับความยากต่างกัน สีแดงแสดงถึง Attention Head ที่ทำงานมากขึ้นในโจทย์ยาก สีน้ำเงินแสดงถึง Attention Head ที่ทำงานมากขึ้นในโจทย์ง่าย

เพื่อตรวจสอบว่าการแยกสาขาตัวแปรแฝงนำมาซึ่งการนำทางการอนุมานที่มีโครงสร้างหรือการฉีดสัญญาณรบกวนแบบสุ่ม เราได้แสดงรูปแบบการกระตุ้นความสนใจ ดังแสดงในรูปที่ 4 กลไกการฉีดชั้นอินพุตมีแนวโน้มที่จะถูกเจือจางโดยชั้นลึก ในขณะที่กลไกการฉีดชั้น softmax นำไปสู่การกระตุ้นแบบกระจาย ในทางตรงกันข้าม การฉีด PSA (Pseudo Self-Attention) ที่ใช้โดย I²B-LPO สามารถกระตุ้น Attention Head ที่เกี่ยวข้องกับโจทย์ยากในชั้นลึก ทำให้เกิดรูปแบบการกระตุ้นการอนุมานที่มีโครงสร้างมากขึ้น

เรายังวิเคราะห์เส้นทางคุณภาพต่ำที่ถูกคัดกรองโดยกลไกการให้รางวัลตนเอง และพบว่าเส้นทางที่มีคะแนน IB ต่ำส่วนใหญ่มีปัญหาทั่วไปสามประเภทดังต่อไปนี้:

  • คลุมเครือและยาว: ดูเหมือนกำลังวิเคราะห์อย่างจริงจัง แต่จริงๆ แล้วมีเนื้อหาที่ไม่มีข้อมูลจำนวนมาก เช่น “Let me think” “It is important to note”
  • วนซ้ำ: พูดซ้ำโจทย์หรือขั้นตอนกลางซ้ำแล้วซ้ำเล่า ทำให้ความยาวเพิ่มขึ้น แต่ไม่ได้เพิ่มข้อมูลการอนุมานใดๆ
  • ล่องลอยทางตรรกะ: การแสดงออกอาจกระชับ แต่สูตรสำคัญหรือทิศทางการอนุมานผิดพลาด ไม่มีประโยชน์ในการได้คำตอบที่ถูกต้อง

ในทางตรงกันข้าม เส้นทางที่มีคะแนน IB สูงมักจะสั้นกว่า ตรงประเด็นกว่า และแต่ละขั้นตอนมีส่วนช่วยต่อคำตอบสุดท้าย สิ่งนี้บ่งชี้ว่ากลไกการให้รางวัลตนเองด้วยคอขวดข้อมูลไม่ได้แค่ลงโทษ “การพูดมาก” แต่กำลังคัดกรองเส้นทางการอนุมานที่กระชับ มีประสิทธิภาพ และมีความสามารถในการทำนายอย่างแท้จริง การวิเคราะห์กรณีศึกษาแสดงในรูปที่ 5

I²B-LPO: ทะลุขีดจำกัดการสำรวจ RLVR ฉีดตัวแปรแฝงเข้าสู่โหนดเอนโทรปีสูง เพิ่มความแม่นยำในการให้เหตุผลทางคณิตศาสตร์ 5.3%

รูปที่ 5: การเปรียบเทียบเส้นทางการอนุมานที่มีคะแนน IB สูงและคะแนน IB ต่ำ

สรุป

งานวิจัยนี้มุ่งเน้นไปที่การเพิ่มประสิทธิภาพการสำรวจและคุณภาพการอนุมานในการฝึกอบรมหลัง RLVR ผ่านการวิเคราะห์อย่างเป็นระบบ เราพบว่า rollout แบบสุ่มมาตรฐานมีแนวโน้มที่จะทำให้โมเดลบรรจบกันไปยังแม่แบบการอนุมานที่มีความน่าจะเป็นสูงจำนวนไม่กี่แบบ ส่งผลให้เส้นทางการอนุมานหลายเส้นทางมีพื้นผิวที่แตกต่างกันแต่พื้นฐานเป็นเนื้อเดียวกัน ซึ่งทำให้ความแตกต่างของรางวัลและสัญญาณการเรียนรู้ที่มีประสิทธิภาพระหว่างเส้นทางลดลง

จากการค้นพบนี้ เรานำเสนอกรอบการทำงานเสริมการสำรวจ I²B-LPO วิธีนี้ผลักดันการสำรวจใน RLVR จาก “การสุ่มตัวอย่างคำตอบมากขึ้นซ้ำๆ” ไปสู่ “การสร้างเส้นทางการอนุมานที่มีความแตกต่างมากขึ้นที่โหนดสำคัญ” I²B-LPO บรรลุการสำรวจที่มีประสิทธิภาพผ่านกลไกสำคัญสองประการ:

  • การแยกสาขาที่โหนดเอนโทรปีสูง: สร้างเส้นทางการอนุมานที่หลากหลายในตำแหน่งสำคัญที่โมเดลไม่แน่ใจอย่างแท้จริง
  • การให้รางวัลตนเองด้วยคอขวดข้อมูล: คัดกรองเส้นทางคุณภาพสูงที่กระชับ มีข้อมูลสูง และตรงประเด็น กรองการอนุมานที่ยาวและไม่ได้ผล

ผลการทดลองแสดงให้เห็นว่า I²B-LPO สามารถเพิ่มทั้งความแม่นยำในการอนุมานและความหลากหลายทางความหมายบนเกณฑ์มาตรฐานการอนุมานทางคณิตศาสตร์หลายรายการ โดยบรรลุการสำรวจ RLVR ที่มีประสิทธิภาพและเชื่อถือได้มากขึ้นภายใต้งบประมาณการสุ่มตัวอย่างที่จำกัด


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34520

Like (0)
Previous 1 day ago
Next 7 hours ago

相关推荐