โมเดลขนาดใหญ่ก้าวล้ำใหม่ในการอนุมาน: การคิดแบบขนาน + การเรียนรู้เสริมแรงด้วยการกลั่นตัวเอง BIGAI เสนอ NPR ตัวอนุมานแบบขนานดั้งเดิม

8 hours ago • การอนุมานโมเดลขนาดใหญ่ • 11 views

บทความที่ตีพิมพ์ในที่ประชุมใหญ่ ICML 2026 โดยผู้เขียนหลักประกอบด้วยนักวิจัยจากสถาบันวิจัยปัญญาประดิษฐ์ทั่วไปปักกิ่ง (BIGAI) ได้แก่ อู๋ถง, หลิวหยาง และไป๋จวิ้น โดยมีผู้เขียนที่ติดต่อคือ เจียจื่อเซีย นักวิจัยจากห้องปฏิบัติการปฏิสัมพันธ์ทางภาษา และเจิ้งจื่อหลง หัวหน้าห้องปฏิบัติการ

ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาขนาดใหญ่มีความก้าวหน้าอย่างมากในด้าน “การเขียนให้ยาวและลื่นไหลมากขึ้น” อย่างไรก็ตาม เมื่อภารกิจยกระดับเป็นสถานการณ์การให้เหตุผลที่ซับซ้อนอย่างแท้จริง ซึ่งต้องมีการสำรวจหลายเส้นทาง การสะท้อนตนเองและการตรวจสอบซึ่งกันและกัน รวมถึงการรวบรวมและคัดเลือกข้อมูลเบาะแสต่างๆ วิธีการคิดแบบลูกโซ่ (Chain-of-Thought) แบบดั้งเดิมเริ่มแสดงข้อจำกัด: มักถูก误导โดยการตัดสินใจในช่วงแรก ความสามารถในการกระจายตัวไม่เพียงพอ ความสามารถในการแก้ไขข้อผิดพลาดด้วยตนเองอ่อนแอ และรูปแบบการสร้างแบบลำดับโดยธรรมชาติก็จำกัดประสิทธิภาพ

เพื่อแก้ไขปัญหาคอขวดเหล่านี้ ห้องปฏิบัติการปฏิสัมพันธ์ทางภาษา (NLCo) ของสถาบันวิจัยปัญญาประดิษฐ์ทั่วไปปักกิ่ง (BIGAI) ได้เปิดตัวผลงานวิจัยล่าสุด นั่นคือ ตัวให้เหตุผลแบบขนานโดยธรรมชาติ (Native Parallel Reasoner หรือ NPR) แนวคิดหลักคือ: ให้ตัวแทนสร้างและรักษาเส้นทางการให้เหตุผลที่เป็นตัวเลือกหลายเส้นทางพร้อมกันในระหว่างกระบวนการคิดครั้งเดียว ทำการ “แยกสาขาและรวมผล” ที่จุดสำคัญ และสุดท้ายรวบรวมข้อมูลเบาะแสทั้งหมดเหมือนการต่อจิ๊กซอว์ เพื่อสังเคราะห์หาคำตอบที่ดีที่สุด

ที่สำคัญยิ่งกว่านั้น จุด突破ของ NPR ไม่ใช่แค่ “เทคนิคทางวิศวกรรมของการสร้างแบบขนาน” แต่เป็นการเสนอชุดกระบวนทัศน์การฝึกอบรมสามขั้นตอนที่ประกอบด้วย “การกลั่นตนเองและการเรียนรู้เสริมแรงแบบขนาน” พร้อมกับติดตั้งเอนจินการให้เหตุผลแบบขนานโดยเฉพาะ เป้าหมายสูงสุดคือการเปลี่ยนการให้เหตุผลแบบขนานจากกลยุทธ์ภายนอก ให้เป็นความสามารถในการรับรู้โดยธรรมชาติของโมเดล

ชื่อบทความ: Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning
ลิงก์บทความ: https://arxiv.org/abs/2512.07461
โค้ด: https://github.com/bigai-nlco/Native-Parallel-Reasoner
หน้าโครงการ: https://bigai-nlco.github.io/Native-Parallel-Reasoner

ปัจจุบัน จุดสนใจของการวิจัยเกี่ยวกับตัวแทนภาษา (Language Agent) ได้เปลี่ยนจาก “การขยายห่วงโซ่ความคิดเดี่ยว” ไปสู่ “การให้เหตุผลเชิงลึกหลายขั้นตอน” แม้ว่าโมเดลจะสามารถให้เหตุผลในระดับที่ลึกขึ้นได้นั้นน่าตื่นเต้น แต่สิ่งที่ปัญญาประดิษฐ์ระดับสูงในอนาคตต้องการจริงๆ คือความสามารถในการสำรวจเส้นทางความคิดที่เป็นไปได้หลายเส้นทางแบบขนานในวงกว้างมากขึ้น กล่าวคือ พยายามใช้วิธีการแก้ปัญหาหลายวิธีพร้อมกันในกระบวนการให้เหตุผลครั้งเดียว จากนั้นจึงรวมและตรวจสอบผลลัพธ์ แนวคิดการแบ่งแยกแล้วปกครองที่คล้ายกับ MapReduce[2] นี้มีความสำคัญอย่างยิ่งต่อการขยายขอบเขตความสามารถของตัวแทนในการคำนวณ ณ เวลาทดสอบ[3] อย่างไรก็ตาม การบูรณาการความสามารถนี้เข้ากับตัวแทนอย่างเป็นธรรมชาติยังคงเผชิญกับความท้าทายอย่างมาก

ความไม่สอดคล้องกันระหว่างอัลกอริทึมและสถาปัตยกรรม
เอนจินการให้เหตุผลและอัลกอริทึมการเรียนรู้เสริมแรงที่มีอยู่ในปัจจุบันไม่สามารถรองรับการดำเนินการ “แยกสาขาและรวมผล” ได้โดยธรรมชาติ โดยทั่วไปเอนจินการให้เหตุผลไม่สามารถจัดตารางเวลาสาขาขนานได้อย่างมีประสิทธิภาพ ในขณะที่เทคนิคการเรียนรู้เสริมแรงที่ใช้กันทั่วไปอาจตัดหรือลดทอนการไล่ระดับของโทเค็นพิเศษที่กระตุ้นโครงสร้างแบบขนาน ซึ่งเป็นอุปสรรคต่อการเรียนรู้ตรรกะการควบคุมแบบขนานที่เข้มงวดของโมเดล
กลไกแบบขนานที่ทำด้วยมืออย่างไม่มีประสิทธิภาพ
ความพยายามในช่วงแรกในการทำให้แนวคิดแบบขนานเป็นภายใน มักอาศัยกฎการแบ่งแยกแล้วปกครองที่ออกแบบด้วยมือ วิธีการเหล่านี้ไม่สามารถใช้ประโยชน์จากสถานะ KV Cache ที่ใช้ร่วมกันได้อย่างเต็มที่ ส่งผลให้แต่ละสาขาต้องคำนวณซ้ำ ทำให้ความซับซ้อนของเวลาเสื่อมลงเป็นเชิงเส้น O(N) ซึ่งยากต่อการตอบสนองความต้องการด้านประสิทธิภาพสำหรับการปรับใช้แบบเรียลไทม์หรือขนาดใหญ่
การพึ่งพาการกลั่นภายใต้การดูแลที่เข้มงวด
วิธีการเช่น Multiverse[4] แม้จะสามารถบรรลุการทำงานแบบขนานได้ แต่ต้องพึ่งพาตัวอย่างที่กลั่นจากโมเดลครูที่แข็งแกร่งเป็นอย่างมาก และไม่สามารถขยายขอบเขตความฉลาดของตนเองผ่านวิธีการแบบบูตสแตรป โมเดลนักเรียนเพียงแค่เลียนแบบโทโพโลยีแบบลำดับของครู และ “ยัดเยียด” ให้อยู่ในรูปแบบขนาน ผลลัพธ์คือการสืบทอดข้อจำกัดของครูไปด้วย ทำให้โมเดลยากที่จะสร้างกลยุทธ์แบบขนานใหม่ๆ ที่เป็นของตัวเองในระยะเวลาอันสั้น จึงถึง “คอขวดทางปัญญา” ในปัจจุบัน

ความเป็นมาและ痛点: ทำไมเราถึงต้องการการให้เหตุผลแบบขนานอย่างเร่งด่วน?

ความคาดหวังที่มีต่อตัวแทนกำลังเปลี่ยนจากห่วงโซ่ความคิดเดี่ยวที่ “คิดได้ไกลขึ้นอีกนิด” ไปสู่การให้เหตุผลเชิงลึกที่ “คิดได้หลายมิติ” ตัวแทนที่ทรงพลังกว่าในอนาคตจะต้องมีความสามารถในการสำรวจเส้นทางความคิดหลายเส้นทางอย่างกว้างขวาง ซึ่งคล้ายกับแนวคิด MapReduce[2] แบบคลาสสิก: แยกปัญหาที่ซับซ้อนออกเป็นส่วนย่อย ประมวลผลแบบขนาน จากนั้นรวมผลลัพธ์เพื่อตัดสินใจระดับโลกที่เหมาะสมที่สุด

อย่างไรก็ตาม การทำให้โมเดลเชี่ยวชาญ “วิชาแยกกาย” นี้อย่างแท้จริง ในทางปฏิบัติมักเผชิญกับอุปสรรคสามประการ:

ข้อมูลการคิดแบบขนานนั้นหายากมาก: การพึ่งพาการกลั่นจากครูที่แข็งแกร่งมากเกินไป
งานให้เหตุผลแบบขนานที่มีอยู่จำนวนมากต้องการโมเดลครูที่แข็งแกร่งเพื่อให้เส้นทางแบบขนานคุณภาพสูง (เช่น วิธี Multiverse[4]) ปัญหาคือ:
- โมเดลนักเรียนส่วนใหญ่เลียนแบบโทโพโลยีแบบลำดับของครู แล้ว “ยัดเยียดให้อยู่ในรูปแบบขนาน”
- ผลลัพธ์คือการสืบทอดข้อจำกัดของครู ทำให้ยากต่อการขยายขอบเขตความฉลาดผ่านวิธีการแบบบูตสแตรป
- เป็นการยากที่ “กลยุทธ์แบบขนานโดยธรรมชาติของโมเดลเอง” จะเกิดขึ้นจริงๆ กลายเป็นคอขวดทางปัญญาใหม่
กลไกแบบขนานที่ทำด้วยมืออย่างไม่มีประสิทธิภาพ: การแบ่งปันระหว่างสาขาทำได้ยาก มีการคำนวณซ้ำอย่างรุนแรง
การทำงานแบบขนานของโมเดลในยุคแรกมักอาศัยกฎการแบ่งแยกแล้วปกครองที่ออกแบบด้วยมือ: แต่ละเส้นทางให้เหตุผลหรือสร้างตามรูปแบบที่กำหนด เนื่องจากการขาดการ复用ขั้นตอนที่ใช้ร่วมกันอย่างมีประสิทธิภาพ มักเกิดสถานการณ์ที่แต่ละสาขาคำนวณคำนำหน้าส่วนกลางซ้ำ ทำให้ประสิทธิภาพยากที่จะตอบสนองความต้องการการให้เหตุผลแบบเรียลไทม์และการปรับใช้ขนาดใหญ่
โครงสร้างพื้นฐานและอัลกอริทึมสนับสนุนสถาปัตยกรรมแบบขนานไม่เพียงพอ: “เรียนรู้ไม่ได้” สำหรับการแยกสาขาและรวมผล
เอนจินการให้เหตุผลและอัลกอริทึมการเรียนรู้เสริมแรงที่มีอยู่มักขาดการสนับสนุนโดยธรรมชาติสำหรับโครงสร้าง “แยกสาขา-รวมผล”:
- เอนจินการให้เหตุผลยากที่จะจัดตารางเวลาสาขาขนานได้อย่างมีประสิทธิภาพ
- เทคนิคการเรียนรู้เสริมแรงที่ใช้กันทั่วไปอาจตัดหรือลดทอนการไล่ระดับของโทเค็นควบคุมพิเศษที่กระตุ้นโครงสร้างแบบขนาน ซึ่งเป็นอุปสรรคต่อการเรียนรู้ตรรกะการควบคุมแบบขนานที่เข้มงวดของโมเดล

แนวคิดหลักของ NPR: ยกระดับ “ความเป็นขนาน” ให้เป็นความสามารถโดยธรรมชาติของโมเดล

คำสำคัญของ NPR อยู่ที่คำว่า “โดยธรรมชาติ” ทีมวิจัยพยายามสำรวจเส้นทางที่ให้โมเดลวิวัฒนาการความสามารถในการให้เหตุผลแบบขนานด้วยตนเองภายใต้เงื่อนไขที่ไม่มีการกำกับดูแลจากภายนอก (ไม่พึ่งพาเส้นทางขนานของครูที่แข็งแกร่ง)

แนวคิดโดยรวมคือกระบวนทัศน์การฝึกอบรมสามขั้นตอนแบบค่อยเป็นค่อยไป เพื่อให้โมเดลเปลี่ยนจากการ “เขียนในรูปแบบขนานได้” ไปสู่ “การดำเนินการแบบขนานอย่างแท้จริงในระดับกราฟการคำนวณ”

กระบวนทัศน์การฝึกอบรมสามขั้นตอน: จาก “รูปลักษณ์ภายนอกแบบขนาน” สู่ “สมองแบบขนาน”

ขั้นตอนที่หนึ่ง: การเรียนรู้รูปแบบขนาน – เรียนรู้ “วิธีการเขียนให้เป็นขนาน” ก่อน
ขั้นตอนแรกไม่追求一步到位ให้ “ขนานจริงๆ” แต่ให้โมเดลเชี่ยวชาญโครงสร้างการแสดงออกของการให้เหตุผลแบบขนานก่อน: วิธีการ标记สาขา วิธีการจัดระเบียบเส้นทาง候选หลายเส้นทาง วิธีการกำหนดจุดรวมผล
ขั้นตอนที่สอง: การกลั่นตนเอง – ทำให้ “ตรรกะการคิดแบบขนาน” เป็นภายใน หลุดพ้นจากครูภายนอก
หลังจากมีความสามารถในการแสดงออกแบบขนาน NPR ใช้วิธีการกลั่นตนเอง โดยให้โมเดลใช้ผลลัพธ์ที่สร้างขึ้นเองมาฝึกตัวเองย้อนกลับ ผ่านการคัดกรองและตกตะกอน ให้โมเดลค่อยๆ ทำให้กฎการให้เหตุผลของ “การสำรวจหลายสาขา – การยืนยันซึ่งกันและกัน – การบรรจบกัน” เป็นภายใน แทนที่จะลอกเลียนความชอบและข้อจำกัดแบบลำดับของครู
ขั้นตอนที่สาม: การเรียนรู้เสริมแรงแบบรับรู้ขนาน – ก้าวจาก “เลียนแบบขนาน” สู่ “ดำเนินการขนาน”
ขั้นตอนสุดท้ายคือการก้าวกระโดดที่สำคัญ ใช้การเรียนรู้เสริมแรงแบบรับรู้ขนาน เพื่อให้โมเดลเรียนรู้ว่าเมื่อใดควรแยกสาขา แยกกี่สาขา วิธีการเปรียบเทียบและรวมที่จุดรวมผล ทำให้ความเป็นขนานไม่停留在แค่พื้นผิวข้อความอีกต่อไป แต่กลายเป็นตรรกะควบคุมที่สามารถดำเนินการได้ในกระบวนการให้เหตุผลอย่างแท้จริง ขั้นตอนนี้ผลักดัน “ความเป็นขนาน” จากเทคนิคทางวิศวกรรม ไปสู่ระดับความสามารถโดยธรรมชาติของโมเดล

ดังแสดงในรูปด้านล่าง หลังจากผ่านการฝึกอบรมสามขั้นตอน ความแม่นยำของ NPR เพิ่มขึ้นอย่างต่อเนื่องจากประมาณ 17% จนถึง 50.4% (เส้นโค้งการเรียนรู้สองเส้นตรงกลางสอดคล้องกับการเรียนรู้รูปแบบในขั้นตอนที่หนึ่งและการเรียนรู้เสริมแรงแบบขนานในขั้นตอนที่สาม); เมื่อเทียบกับวิธีการให้เหตุผลแบบดั้งเดิม NPR สามารถเร่งการสร้างได้ประมาณ 4.6 เท่า (แผนภูมิแท่งด้านขวา)

รายละเอียดการนำไปใช้ของ NPR

กระบวนทัศน์การฝึกอบรม NPR

Stage 1: การเรียนรู้เสริมแรงแบบตามรูปแบบ (NPR-ZERO)
- เป้าหมาย: ให้โมเดลเรียนรู้การสร้างรูปแบบขนานที่มีโครงสร้าง (เช่น แท็กที่มีโครงสร้างอย่าง <guideline>, <plan>, <step>, <takeaway>) โดยไม่มีตัวอย่างภายนอกหรือโมเดลครู และพยายามรับประกันความถูกต้องของคำตอบ
- วิธีการ: ใช้ความสอดคล้องของรูปแบบและความถูกต้องของคำตอบเป็นสัญญาณรางวัล ทำการเรียนรู้เสริมแรงแบบ DAPO[6] กับโมเดลที่ปรับแต่งด้วยคำสั่งเริ่มต้น เพื่อให้ได้ตัวสร้างที่สามารถสร้างเส้นทางในรูปแบบขนาน (NPR-ZERO) ขั้นตอนนี้ให้เส้นทาง候选ดิบสำหรับการกลั่นตนเองในภายหลัง
Stage 2: การสุ่มตัวอย่างปฏิเสธ + การอุ่นเครื่องแบบขนาน (NPR-BETA)
- เป้าหมาย: เปลี่ยน “ผลผลิตที่มีรูปแบบ” จาก Stage 1 ให้เป็นข้อมูลการฝึกอบรมคุณภาพสูง และทำให้โมเดลมีความเสถียรในความหมายแบบขนาน

Stage 2: การเริ่มต้นแบบเย็นด้วย SFT แบบขนานโดยอาศัยการกลั่นตนเอง

วิธีการหลัก: ขั้นแรก ทำการสุ่มตัวอย่างปฏิเสธ[7] กับผลการให้เหตุผลที่สร้างโดยโมเดล NPR-ZERO และใช้เงื่อนไขการคัดกรองที่เข้มงวด – เส้นทาง候选ต้องเป็นไปตาม “รูปแบบที่สอดคล้องกับข้อกำหนดแบบขนานอย่างสมบูรณ์” และ “คำตอบสุดท้ายถูกต้อง” พร้อมกันทั้งสองข้อ ด้วยวิธีนี้ เราคัดกรองเส้นทางการให้เหตุผลแบบขนานคุณภาพสูงที่มีคุณสมบัติการกลั่นตนเอง จากนั้นใช้ข้อมูลที่คัดสรรเหล่านี้เพื่ออุ่นเครื่องโมเดลด้วย SFT (การปรับแต่งอย่างมีผู้สอน) แบบขนานในขั้นตอนการเริ่มต้นแบบเย็น ในระหว่างการปรับแต่งนี้ เราได้นำเสนอ Parallel Attention Mask และ Parallel Positional Encoding อย่างสร้างสรรค์ ทำให้โมเดลสามารถรองรับการคำนวณอิสระของหลายสาขาขนานได้โดยธรรมชาติ และ可以实现การ复用 KV Cache เพื่อหลีกเลี่ยงค่าใช้จ่ายจากการคำนวณซ้ำ

Stage 3: การเรียนรู้เสริมแรงแบบขนานโดยธรรมชาติ (PAPO)

เป้าหมายหลัก: บนเอนจินการดำเนินการแบบขนาน ใช้การเรียนรู้เสริมแรงโดยตรงเพื่อปรับกลยุทธ์ของโมเดลในการสร้างสาขาขนาน เป้าหมายคือให้โมเดลไม่เพียงเรียนรู้ “การเขียน” รูปแบบขนาน แต่ยังเรียนรู้ “การคำนวณ” และได้ผลลัพธ์แบบขนาน
วิธีการหลัก: เราเสนอและนำ Parallel-Aware Policy Optimization (PAPO) มาใช้ ซึ่งเป็นวิธีการปรับกลยุทธ์ที่ออกแบบมาโดยเฉพาะสำหรับความหมายแบบขนาน การออกแบบที่สำคัญประกอบด้วย: การใช้เอนจินการให้เหตุผล NPR-Engine ที่基于 Parallel Rollout เพื่อรับประกันความถูกต้องของโครงสร้างของเส้นทางที่สร้าง; การทำ Normalization ของ Advantage ในระดับ Batch; การ保留梯度ของโทเค็นที่มีโครงสร้างพิเศษ; และการละทิ้ง Importance Sampling เพื่อรักษาการอัปเดต梯度แบบ On-Policy ที่เสถียร[8] PAPO สามารถปรับกลยุทธ์สาขาได้โดยตรงภายในกราฟการคำนวณแบบขนาน ทำให้โมเดลเรียนรู้กลยุทธ์การ分解ปัญหาและการรวมผลลัพธ์ที่มีประสิทธิภาพผ่านการลองผิดลองถูกอย่างต่อเนื่อง

รายละเอียดเทคนิคสำคัญ

1. การกลั่นตนเองและการสุ่มตัวอย่างปฏิเสธ (Rejection Sampling) อย่างเข้มงวด

หลังจากสร้างเส้นทาง候选จำนวนมากที่สอดคล้องกับรูปแบบขนานจาก NPR-ZERO เราใช้กฎการคัดกรองที่เข้มงวดสองข้อ โดยเก็บเฉพาะตัวอย่างคุณภาพสูงเข้าสู่ชุดที่ยอมรับ (D_{accept}):

ความถูกต้องของผลลัพธ์ (Outcome Correctness): คำตอบสุดท้ายที่แยกวิเคราะห์จากเส้นทาง候选ที่โมเดลสร้างขึ้นต้องตรงกับป้ายกำกับจริง (Ground Truth) อย่างสมบูรณ์
ความเป็นขนานของโครงสร้าง (Structured Parallelism): ผลลัพธ์ต้องเป็นไปตาม Schema ของรูปแบบขนานอย่างเคร่งครัด (รวมถึงแท็ก ขอบเขตบล็อก ฯลฯ)

เฉพาะเมื่อเส้นทาง候选เป็นไปตามกฎทั้งสองข้อพร้อมกันเท่านั้น จึงจะได้รับการยอมรับ เพื่อใช้ใน SFT แบบขนานในขั้นตอนการเริ่มต้นแบบเย็น (NPR-BETA) กลยุทธ์นี้ช่วยลดสัญญาณรบกวนในข้อมูลการฝึกอบรมได้อย่างมาก และรับประกันความเป็นขนานและความสามารถในการเรียนรู้ของคลังข้อมูลการฝึก

2. Parallel Attention Mask และ Parallel Positional Encoding

เพื่อรองรับเส้นทางการให้เหตุผล (Reasoning Path) หลายเส้นทางพร้อมกันในการส่งผ่านไปข้างหน้าครั้งเดียว NPR ใช้ Parallel Attention Mask แบบสไตล์ Multiverse และ Parallel Positional Encoding ที่ออกแบบมาโดยเฉพาะ (สอดคล้องกับรหัสเทียม Algorithm 2 ในบทความ) การออกแบบนี้รับประกันว่าสาขาต่างๆ จะแยกออกจากกัน ในขณะที่สามารถแชร์ KV Cache[8] ของบริบทได้ ทำให้可以实现การ复用 KV Cache และหลีกเลี่ยงค่าใช้จ่ายในการคำนวณบริบทซ้ำของแต่ละสาขา นอกจากนี้ กลไกการเข้ารหัสนี้ยังอนุญาตให้ใช้โทเค็นแท็กเพื่อระบุสาขา ขั้นตอน หรือบล็อกแนวทางได้อย่างชัดเจน ทำให้เอนจินแยกวิเคราะห์ได้ง่าย

3. Parallel-Aware Policy Optimization (PAPO)

การนำอัลกอริทึม PPO[9] หรือ DAPO แบบคลาสสิกมาใช้ภายใต้ความหมายแบบขนานโดยตรง จะพบปัญหาเช่นโทเค็นพิเศษถูกตัดทอน ความไม่เสถียรของ Importance Sampling เป็นต้น การออกแบบหลักของ PAPO ประกอบด้วย:

Parallel Rollout: ใช้ NPR-Engine สร้างเส้นทางที่ปฏิบัติตาม Schema แบบขนานอย่างเคร่งครัด รับประกันความถูกต้องตามกฎหมายของตัวอย่าง
การกรองตามโครงสร้าง: ก่อนเข้าสู่ขั้นตอนการปรับแต่ง ให้ตัดตัวอย่างที่ละเมิดรูปแบบออก และลดรางวัลให้เป็นตัวชี้วัดความถูกต้องล้วนๆ (+1/-1)
Batch-level Advantage Normalization: เนื่องจากตัวอย่างที่ละเมิดรูปแบบถูกเอาออก ความแปรปรวนภายในกลุ่มจะยุบตัว ดังนั้นเราจึงใช้ค่าเบี่ยงเบนมาตรฐานทางสถิติในช่วงที่กว้างขึ้น (หลายกลุ่มภายใน Batch) เพื่อทำให้การประมาณ Advantage มีเสถียรภาพ
การ保留梯度ของโทเค็นพิเศษและการละทิ้ง Importance Sampling: เพื่อป้องกันไม่ให้แท็กพิเศษที่กระตุ้นโครงสร้างแบบขนานถูกตัดทอน PAPO 保留การไหลของ梯度ในระดับโทเค็น ในขณะเดียวกัน ละทิ้ง Importance Sampling และใช้ฟังก์ชันวัตถุประสงค์แบบ On-Policy ที่เข้มงวด หลีกเลี่ยงความไม่เสถียรที่เกิดจากอัตราส่วนการสุ่มตัวอย่างซ้ำ

การปรับปรุงทางวิศวกรรม AI Infra: NPR-Engine

การทดลองพิสูจน์ว่าการปรับใช้ความหมายแบบขนานกับการเรียนรู้เสริมแรงแบบขนานในสภาพแวดล้อมการผลิต จะเผยให้เห็นปัญหาทางวิศวกรรมจำนวนมาก (เช่น หน่วยความจำรั่วไหลจากการปล่อย KV Cache ซ้ำ การสร้างที่ยาวเกินไปจากการนับโทเค็นแบบขนาน สถานะที่ไม่ได้กำหนดจาก Schema แบบขนานที่ผิดกฎหมาย ฯลฯ) บทความได้ทำการแก้ไขสำคัญหลายประการในระดับเอนจิน:

การ回收 KV แบบรับรู้งบประมาณ: เพื่อหลีกเลี่ยงการปล่อยซ้ำ (Double-Free) ที่เกิดจากการ回收ตามโอกาส (Opportunistic Recycling) ของ Radix-Tree KV Path จึงนำกลไกการ回收แบบกำหนดได้ที่รับรู้งบประมาณและกลยุทธ์การ刷新หน่วยความจำมาใช้
กลยุทธ์การสะสมโทเค็นแบบรับรู้สาขา: เปลี่ยนงบประมาณโทเค็นรวมจาก “ดูเฉพาะสาขาที่ยาวที่สุด” เป็น “สะสมตามปัจจัยสาขาที่ใช้งาน” เพื่อหลีกเลี่ยงการเกินขีดจำกัด max_new_tokens
การตรวจสอบรูปแบบล่วงหน้าและความไม่แปรเปลี่ยนแบบเบา: เพิ่มชั้นการตรวจสอบความถูกต้องของรูปแบบก่อนการขยายสาขา เพื่อปฏิเสธสาขาที่อาจผิดกฎหมายอย่างรวดเร็ว รับประกันความแน่นอนและความเสถียรของระบบ

การปรับปรุงและการนำไปใช้ทางวิศวกรรมเหล่านี้เป็นข้อกำหนดเบื้องต้นเพื่อให้แน่ใจว่าสามารถฝึกอบรมการเรียนรู้เสริมแรงแบบขนานได้อย่างเสถียร และได้รับตัวแทนการคิดแบบขนานในที่สุด

การทดลองหลักและข้อสรุป

เกณฑ์มาตรฐานและการวัด

เราทำการประเมินบนเกณฑ์มาตรฐานการให้เหตุผล 8 รายการ: AIME24/25, HMMT25, OlympiadBench, Minerva-Math, ZebraLogic, AMC23, MATH500 เป็นต้น สำหรับข้อมูลประเภทการแข่งขันขนาดเล็ก เราใช้ avg@8 (ความแม่นยำเฉลี่ยจากการสุ่มตัวอย่าง 8 คำตอบ); สำหรับการตั้งค่าขนาดใหญ่หรือคำตอบเดียว เราใช้ avg@1

ข้อได้เปรียบของข้อมูลการฝึก: กุญแจสำคัญในการปรับปรุงประสิทธิภาพ

กุญแจสำคัญในการปรับปรุงประสิทธิภาพคือการแทนที่คลังข้อมูลการฝึกของ Multiverse (MV-4B’s s1.1-8k) ด้วยชุดข้อมูลที่กลั่นด้วยตนเอง (ORZ-8k ของ NPR-BETA) แม้ว่ารายละเอียดการนำไปใช้ของทั้งสองกระบวนการจะแตกต่างกันเล็กน้อย แต่ทั้งคู่ต้องพึ่งพา SFT แบบขนาน ดังนั้นการเปรียบเทียบผลลัพธ์จึงมีความหมาย ผลกระทบของการแทนที่ข้อมูลมีความชัดเจนและสม่ำเสมอ: ประสิทธิภาพ AIME24 เพิ่มขึ้นจาก 46.7 เป็น 50.8 (+4.1), ZebraLogic จาก 60.2 เป็น 76.1 (+15.9), AMC23 จาก 75.0 เป็น 85.9 (+10.9), MATH500 จาก 81.6 เป็น 91.6 (+10.0) โดยรวม คะแนนเฉลี่ยเพิ่มขึ้นจาก 50.1 เป็น 59.0 (+8.9)

ข้อได้เปรียบของ SFT แบบขนาน

การเปลี่ยนจาก SFT แบบลำดับ (เช่น SR-BETA) เป็นวิธี SFT แบบขนาน (NPR-BETA) สามารถปรับปรุงประสิทธิภาพบนเกณฑ์มาตรฐานการให้เหตุผลต่างๆ ได้อย่างมีนัยสำคัญ SFT แบบลำดับนำเสนอ prior การพึ่งพาขั้นตอนที่แข็งแกร่ง ซึ่งจำกัดความยืดหยุ่นในการ分解งาน ในทางตรงกันข้าม SFT แบบขนานทำให้โมเดลได้สัมผัสกับเส้นทางที่มีโครงสร้างแบบขนานในระหว่างการฝึกอบรม ทำให้สามารถสำรวจปัญหาย่อยได้อย่างอิสระมากขึ้น โดยเฉพาะ AIME25 เพิ่มขึ้นจาก 37.1 เป็น 42.9 (+5.8), OlympiadBench จาก 56.3 เป็น 60.1 (+3.8), HMMT25 จาก 22.5 เป็น 23.3 (+0.8), ZebraLogic จาก 72.8 เป็น 76.1 (+3.3) ประสิทธิภาพโดยรวมเพิ่มขึ้นจาก 58.2 เป็น 59.0 (+0.8) โดยมีการถดถอยเล็กน้อยในเกณฑ์มาตรฐานเพียงไม่กี่รายการ

ข้อได้เปรียบของการเรียนรู้เสริมแรงแบบขนาน

จาก NPR-BETA การใช้อัลกอริทึมการเรียนรู้เสริมแรงแบบขนานสามารถปรับปรุงประสิทธิภาพเพิ่มเติม และเหนือกว่าการเรียนรู้เสริมแรงแบบลำดับ (NPR เทียบกับ SR) อย่างสม่ำเสมอ การปรับปรุงเหล่านี้กว้างขวางและเป็นระบบ: AIME24 เพิ่มขึ้นจาก 57.1 เป็น 63.3 (+6.2), HMMT25 จาก 26.3 เป็น 30.8 (+4.5), Minerva-Math จาก 38.2 เป็น 43.0 (+4.8) เกณฑ์มาตรฐานอื่นๆ ก็แสดงการปรับปรุงอย่างต่อเนื่องเช่นกัน AIME25 (+1.2), OlympiadBench (+1.5), ZebraLogic (+2.8), AMC23 (+2.2) และ MATH500 (+0.8) โดยรวม คะแนนเฉลี่ยเพิ่มขึ้นจาก 62.0 เป็น 65.0 (+3.0)

ความแตกต่างของอัตราการขนานและความไวต่อโดเมน

Multiverse-32B มีความแตกต่างอย่างมีนัยสำคัญของอัตราการขนานในชุดข้อมูลต่างๆ ซึ่งบ่งชี้ว่าการนำการให้เหตุผลแบบขนานมาใช้นั้นขึ้นอยู่กับชุดข้อมูลเป็นอย่างมาก โดยเฉพาะอย่างยิ่งในงานที่ต้องใช้ตรรกะหนาแน่น เช่น ZebraLogic ประสิทธิภาพต่ำกว่าชุดข้อมูลการแข่งขันคณิตศาสตร์หลายชุดอย่างเห็นได้ชัด ซึ่งบ่งชี้ว่ากระบวนทัศน์การฝึกอบรม Multiverse ที่ค่อยๆ เปลี่ยนจากพฤติกรรมแบบลำดับไปเป็นพฤติกรรมแบบขนาน ส่งผลให้การทำให้กลยุทธ์แบบขนานเป็นภายในไม่สอดคล้องกัน และมีความไวต่อคุณลักษณะของโดเมนมาก

การเปรียบเทียบและประสิทธิภาพ: ความเป็นผู้นำโดยรวมของ NPR

ในทางตรงกันข้าม โมเดล NPR บรรลุอัตราการ触发แบบขนาน 100.0% ในชุดข้อมูลทั้งแปดชุด ความสอดคล้องในระดับสูงนี้บ่งชี้ว่ากระบวนการฝึกอบรม NPR แบบ end-to-end สามารถทำให้การให้เหตุผลแบบขนานกลายเป็นโหมดการแก้ปัญหาเริ่มต้นของโมเดลได้อย่างน่าเชื่อถือมากขึ้น โดยไม่ถูกรบกวนจากโดเมนหรือความซับซ้อนของชุดข้อมูล กล่าวอีกนัยหนึ่ง NPR ไม่เพียงแต่触发การให้เหตุผลแบบขนานบ่อยขึ้นเท่านั้น แต่ยังสามารถบรรลุเป้าหมายนี้ได้อย่างมั่นคงในชุดข้อมูลการประเมินต่างๆ

ในเกณฑ์มาตรฐานทั้งห้ารายการ NPR ได้ประสิทธิภาพที่ดีที่สุด เหนือกว่า Multiverse (อัตราเร่งระหว่าง 1.3 เท่าถึง 2.4 เท่า) และเส้นฐานแบบ Autoregressive อย่างสม่ำเสมอ ซึ่งยืนยันว่าวิธีนี้มีความสามารถในการสรุปทั่วไปที่แข็งแกร่ง จุดสำคัญคือ อัตราเร่งจะเพิ่มขึ้นพร้อมกับความยากของงาน: ในปัญหาที่ยากกว่า (เช่น AIME25 ถึง 4.6 เท่า, HMMT25 ถึง 4.1 เท่า) ผลการเร่งของ NPR ดีกว่าปัญหาที่ง่ายกว่า (เช่น AMC23 ที่ 2.9 เท่า) มาก ซึ่งบ่งชี้ว่าเมื่อจำเป็นต้องสำรวจเส้นทางการแก้ปัญหาอย่างลึกซึ้งยิ่งขึ้น ข้อได้เปรียบของ NPR จะเด่นชัดยิ่งขึ้น พิสูจน์ว่าไม่เพียงแต่เพิ่มความแม่นยำ แต่ยังมีประสิทธิภาพสูงเป็นพิเศษในสถานการณ์ที่ต้องสำรวจกลยุทธ์การแก้ปัญหาหลายแบบแบบขนาน

การวิเคราะห์กรณีศึกษา

บทความมีตัวอย่างการแก้ปัญหาแบบขนานสำหรับโจทย์เฉพาะหลายข้อ ซึ่งรูปแบบทั่วไปมีดังนี้:

<guideline>: สร้างแผนอิสระหลายแผนแบบขนาน (แต่ละแผนสอดคล้องกับกลยุทธ์หนึ่งข้อ);
<step>: แต่ละแผน展开ขั้นตอนการให้เหตุผลเฉพาะอย่างอิสระและขนานกัน;
<takeaway>: ทำการบูรณาการและการตรวจสอบข้าม สรุปผลสุดท้ายและให้คำตอบสั้นๆ (boxed answer)

ตัวอย่างเช่น สำหรับโจทย์ฟังก์ชันโดเมนหรือเรขาคณิต แผนบางแผนจะใช้วิธีการ分解ที่แตกต่างกัน (เช่น พีชคณิต การตรวจสอบเชิงตัวเลข ความสัมพันธ์ของมุมเรขาคณิต) ในที่สุด ขั้นตอน <takeaway> จะเปรียบเทียบผลลัพธ์ของแต่ละสาขา ตัดรายการที่ไม่สอดคล้องกัน และ输出คำตอบสุดท้าย กลยุทธ์ “หลายมุมมองแบบขนาน + การสรุป” นี้สามารถลดค่าใช้จ่ายที่ไม่มีประสิทธิภาพอันเนื่องมาจากสมมติฐานที่ผิดพลาดของเส้นทางเดียวได้อย่างมาก

บทสรุป

บทความนี้เสนอกรอบงานที่เรียบง่ายและปรับขนาดได้สำหรับการสร้างตัวให้เหตุผลแบบขนานโดยธรรมชาติ ตัวให้เหตุผลนี้สามารถเรียนรู้การ分解แบบปรับตัว การวางแผนแบบขนานที่หลากหลาย และการรวมที่เชื่อถือได้โดยไม่ต้องพึ่งพาโมเดลครูภายนอก โดยการรวม SFT แบบขนานที่กลั่นตนเองเข้ากับ RL แบบขนานของตัวแทน NPR สามารถสร้างกลยุทธ์การให้เหตุผลแบบขนานที่แท้จริง ไม่ใช่กลยุทธ์ที่เลียนแบบหรือเขียนสคริปต์

การทดลองบนเกณฑ์มาตรฐานการให้เหตุผลแปดรายการแสดงให้เห็นว่าวิธีนี้มีการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับชุดข้อมูล Multiverse การฝึกอบรมแบบ Autoregressive และการเรียนรู้เสริมแรงโดยตรง การวิเคราะห์ในบทความพิสูจน์เพิ่มเติมว่าวิธีนี้สามารถเร่งการให้เหตุผล เพิ่มความสามารถในการปรับขนาดในเวลาทดสอบ และไม่มีพฤติกรรมแบบขนานปลอม

กรณีศึกษาแสดงให้เห็นว่าโมเดลปรับความเป็นขนานตามความยากของปัญหาได้อย่างไร ทำให้เกิดการสำรวจที่มีโครงสร้างและการตรวจสอบที่แข็งแกร่ง ผลลัพธ์เหล่านี้บ่งชี้ว่าการให้เหตุผลแบบขนานโดยธรรมชาติเป็นทิศทางที่มีแนวโน้มสำหรับการบรรลุความฉลาดที่ทั่วไปและปรับขนาดได้มากขึ้น

เอกสารอ้างอิง

[1] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
[2] Dean et al. MapReduce: Simplified Data Processing on Large Clusters. OSDI’04: Sixth Symposium on

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง