คำสำคัญ: Diffusion RL, การควอนไทซ์ NVFP4, การฝึกสองขั้นตอนแบบแยกส่วน, การออกแบบร่วมระหว่างอัลกอริทึมและฮาร์ดแวร์, GRPO, สถาปัตยกรรม Blackwell
ในด้านการปรับแนวหลังการฝึก (Post-training Alignment) ของโมเดล Diffusion แบบข้อความเป็นภาพ วิธีการเรียนรู้เสริม (Reinforcement Learning) เช่น GRPO แม้จะมีประสิทธิภาพโดดเด่น แต่ก็ติดอยู่ในวังวนของต้นทุนการคำนวณมหาศาลจาก “การสุ่มตัวอย่างขนาดใหญ่ (Scalable Sampling)”
ทีมวิจัยร่วมจาก NVIDIA, มหาวิทยาลัยฮ่องกง และ MIT ได้เสนอ เฟรมเวิร์ก Sol-RL ซึ่งไม่ได้ใช้เส้นทางดั้งเดิมของการควอนไทซ์โมเดลโดยตรงแบบหยาบๆ แต่กลับมองเห็นว่าในกระบวนการเรียนรู้เสริมนั้น ขั้นตอนการสำรวจ (Exploration) และขั้นตอนการปรับปรุง (Optimization) มีความทนทานต่อความแม่นยำของค่าตัวเลขที่แตกต่างกันโดยพื้นฐาน
ประโยคที่ว่า “Increasing the rollout group size yields pronounced performance improvements, indicating substantial room for further alignment gains” นั้น ทั้งเผยให้เห็นศักยภาพในการปรับปรุงประสิทธิภาพผ่านการขยายขนาดการสุ่มตัวอย่าง และยังชี้ให้เห็นถึงข้อจำกัดด้านพลังการคำนวณที่ตามมาด้วย

- ชื่อบทความวิจัย: FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
- ลิงก์บทความวิจัย: https://www.alphaxiv.org/abs/2604.06916
- ซอร์สโค้ดโอเพ่นซอร์ส: https://github.com/NVlabs/Sana/
- หน้าโครงการ: https://nvlabs.github.io/Sana/Sol-RL/
จุดเน้นของการพัฒนา AI สร้างสรรค์ยุคใหม่ได้เปลี่ยนจากกฎแห่งขนาด (Scaling Law) ในขั้นก่อนฝึก ไปสู่การปรับแนวหลังการฝึกอย่างเงียบๆ ในขอบเขตของโมเดล Diffusion วิธีการปรับแนวโดยใช้การเรียนรู้เสริม (เช่น DDPO, GRPO และรูปแบบแปรผัน) ได้พิสูจน์แล้วว่า การขยายขนาดการสุ่มตัวอย่างสามารถเพิ่มคุณภาพการสร้างและความสอดคล้องกับความชอบของมนุษย์ได้อย่างมีเสถียรภาพและเห็นได้ชัด
อย่างไรก็ตาม ผลประโยชน์ด้านประสิทธิภาพนี้มาพร้อมกับต้นทุนการคำนวณที่สูง สำหรับโมเดลขนาดใหญ่ที่มีพารามิเตอร์หลายพันล้านตัว เช่น FLUX.1 ต้นทุนการคำนวณในการสร้างตัวอย่างผู้สมัครจำนวนมากในแต่ละรอบการฝึก ทำให้นักวิจัยส่วนใหญ่ต้องถอยห่าง ผู้เขียนชี้ให้เห็นถึงความขัดแย้งหลักอย่างแม่นยำ: ในกระบวนการดั้งเดิม มีเพียงตัวอย่างเปรียบเทียบคุณภาพสูงและต่ำจำนวนน้อยเท่านั้นที่ถูกใช้ในการอัปเดตเกรเดียนต์ ตัวอย่างที่สร้างขึ้นส่วนใหญ่จะถูกทิ้งไปหลังจากคำนวณรางวัลแล้ว ซึ่งเผยให้เห็นความซ้ำซ้อนของอัลกอริทึมอย่างมหาศาล
เมื่อเผชิญกับภาวะลำบากนี้ วิธีแก้ปัญหาตามสัญชาตญาณคือการใช้เทคโนโลยีการควอนไทซ์ความแม่นยำต่ำเพื่อเร่งการอนุมาน แต่บทความวิจัยชี้ให้เห็นว่า การแทนที่ตัวอย่าง BF16 ด้วยตัวอย่าง FP4 อย่างง่ายๆ เพื่อปรับปรุงนโยบาย จะทำให้เกิด “ช่องว่างนโยบายที่แตกต่าง (Off-policy Gap)” และการบิดเบือนความหมายระดับพิกเซล สุดท้ายนำไปสู่การล่มสลายของการฝึก
ความเข้าใจลึกซึ้งหลักของ Sol-RL อยู่ที่ “การแยกส่วน (Decoupling)” มันไม่ได้พยายามแก้ไขการสูญเสียความแม่นยำของ FP4 แต่กลับนิยามบทบาทของ FP4 ในกระบวนการเรียนรู้เสริมใหม่ โดยลดระดับจาก “เป้าหมายการปรับปรุง” ลงมาเป็น “ตัวกรองการสำรวจ (Exploration Filter)”

รูปที่ 1: Sol-RL บรรลุการปรับแนวข้อความเป็นภาพที่มีประสิทธิภาพสูงและความเที่ยงตรงสูง ด้านซ้ายคือภาพคุณภาพสูงที่สร้างโดย FLUX.1 และ SANA ที่ปรับแต่งด้วยวิธีนี้ ด้านขวาคือเส้นโค้งการฝึก ImageReward ซึ่งพิสูจน์ว่า Sol-RL บรรลุการเร่งความเร็วเวลาจริงสูงสุด 4.64 เท่า เพื่อให้ถึงระดับรางวัลที่เทียบเท่า และสุดท้ายลู่เข้าสู่ขีดจำกัดการปรับแนวที่สูงกว่า
การเปลี่ยนแปลงปรัชญาการออกแบบนี้ ทำให้ระบบสามารถใช้ประโยชน์จาก พลังการคำนวณสูงสุดทางทฤษฎี 4 เท่าของเอ็นจิ้น NVFP4 ในสถาปัตยกรรม NVIDIA Blackwell ได้อย่างเต็มที่ โดยเกือบไม่สูญเสียประสิทธิภาพสุดท้าย และบรรลุการเร่งความเร็วการฝึกที่เห็นได้ชัด
บทความนี้จะวิเคราะห์อย่างลึกซึ้งว่า Sol-RL ใช้การออกแบบ “การแยกส่วนสองขั้นตอน” อย่างไร เพื่อเปิดเส้นทางใหม่ที่มีประสิทธิภาพด้านพลังการคำนวณสำหรับการปรับแนวหลังการฝึกของโมเดล Diffusion
สารบัญบทความ
- 一、พันธนาการพลังการคำนวณและแนวทางแก้ไข: ทำไมการควอนไทซ์แบบง่ายๆ ถึงล้มเหลวใน Diffusion RL?
- 1.1 การยั่วยวนของกฎแห่งขนาดและคอขวดการสุ่มตัวอย่าง
- 1.2 กับดักของการแทนที่โดยตรงด้วยการควอนไทซ์: อคตินโยบายที่แตกต่างและการบิดเบือนระดับพิกเซล
- 1.3 ปรัชญาการแยกส่วนของ Sol-RL: ลดระดับ FP4 จาก “เป้าหมายการปรับปรุง” เป็น “ตัวกรองการสำรวจ”
- 二、รายละเอียดทางเทคนิค: เฟรมเวิร์กการแยกส่วนสองขั้นตอนของ Sol-RL
- 2.1 ขั้นตอนที่หนึ่ง: การสำรวจปริมาณสูงและการคัดเลือกเมล็ดพันธุ์ (Seed) โดยใช้ NVFP4
- 2.2 ขั้นตอนที่สอง: การสร้างใหม่ความเที่ยงตรงสูงและการปรับปรุงนโยบายด้วย BF16
- 2.3 การรับประกันทางทฤษฎี: ทำไมการจัดอันดับด้วย FP4 ถึงน่าเชื่อถือ?
- 三、การทดสอบยืนยัน: หลักฐานประสิทธิภาพจาก FLUX ถึง SANA
- 3.1 ประสิทธิภาพแบบครบวงจร: การเพิ่มขึ้นสองเท่าของความเร็วการลู่เข้าและประสิทธิภาพสุดท้าย
- 3.2 การวิเคราะห์ประสิทธิภาพพลังการคำนวณ: อัตราการเร่งความเร็วของการสุ่มตัวอย่างและการวนซ้ำ
- 3.3 การทดสอบแยกส่วน: ผลกระทบของขนาดการสำรวจและจำนวนขั้นตอน
- 3.4 การวิเคราะห์คุณภาพการสร้าง: การรักษาความหมายและรายละเอียด
- 四、งานที่เกี่ยวข้องและการเปรียบเทียบ
- 4.1 วิวัฒนาการของการเรียนรู้เสริมในโมเดล Diffusion
- 4.2 ความพยายามในการรวมการอนุมานบิตต่ำกับการเรียนรู้เสริม
- 4.3 ข้อได้เปรียบที่แตกต่างของ Sol-RL
- 五、สรุปและแนวโน้ม
- 5.1 สรุป
- 5.2 อภิปราย: ต้นทุนและข้อจำกัดที่อาจเกิดขึ้น
- 5.3 ทิศทางงานในอนาคต

一、พันธนาการพลังการคำนวณและแนวทางแก้ไข: ทำไมการควอนไทซ์แบบง่ายๆ ถึงล้มเหลวใน Diffusion RL?
แม้การสุ่มตัวอย่างขนาดใหญ่จะนำสัญญาณเกรเดียนต์ที่ดีกว่า แต่ก็ย้ายคอขวดการฝึกของ Diffusion RL จากการแพร่ย้อนกลับ (Backpropagation) ไปสู่การสร้างไปข้างหน้าจำนวนมหาศาล การนำการควอนไทซ์ FP4 เข้ามาใช้อย่างง่ายๆ ไม่เพียงแต่แก้ปัญหาไม่ได้ แต่กลับสร้างปัญหาใหม่ของความไม่เสถียรในการฝึกและการลดลงของประสิทธิภาพ เนื่องจากการเดินทางกำจัดสัญญาณรบกวน (Denoising Trajectory) ที่เป็นเอกลักษณ์ของโมเดล Diffusion และความเข้มงวดของเป้าหมายการปรับปรุง การกำเนิดของ Sol-RL มาจากการแยกส่วนระบบของความขัดแย้งพื้นฐานระหว่าง “ประสิทธิภาพ” และ “ความเที่ยงตรง”
2. วิเคราะห์คอขวด: ทำไมการควอนไทซ์โดยตรงถึงใช้ไม่ได้
นวัตกรรมหลักของ Sol-RL มาจากความเข้าใจลึกซึ้งว่า: ในการเรียนรู้เสริมของโมเดล Diffusion ความต้องการความแม่นยำของข้อมูลสำหรับการสำรวจ (สร้างตัวอย่างผู้สมัคร) และการปรับปรุง (ใช้ตัวอย่างฝึก) นั้นแตกต่างกันโดยสิ้นเชิง ส่วนนี้ผ่านการวิเคราะห์การทดลองสามมิติ เผยให้เห็นภาวะลำบากที่เผชิญเมื่อใช้ตัวอย่างความแม่นยำต่ำ (FP4) ในการฝึกโดยตรง และให้เหตุผลถึงความจำเป็นในการแยกทั้งสองส่วนออกจากกัน
2.1 ผลกระทบของขนาดการสำรวจและคอขวดพลังการคำนวณ
ประสิทธิผลของการเรียนรู้เสริมในการปรับแนวโมเดล Diffusion ขึ้นอยู่กับความแม่นยำของการประมาณค่าฟังก์ชันความได้เปรียบ (Advantage Function) เป็นอย่างมาก ตัวอย่างเช่น วิธีการรางวัลสัมพัทธ์ภายในกลุ่ม (GRPO) ซึ่งหัวใจหลักอยู่ที่การใช้กลุ่มตัวอย่างที่สร้างจากคำใบ้เดียวกัน ผ่านการจัดอันดับรางวัลภายในกลุ่มเพื่อสร้างการประมาณค่าความได้เปรียบ จึงหลีกเลี่ยงความซับซ้อนและความไม่เสถียรของการฝึกเครือข่ายมูลค่า (Critic) เพิ่มเติมแบบดั้งเดิม
ในทางทฤษฎี การขยายพูลสำรวจ (คือจำนวนตัวอย่างที่สร้างในแต่ละกลุ่ม N) สามารถนำมาซึ่งผลประโยชน์ที่เห็นได้ชัด: พูลตัวอย่างที่ใหญ่กว่าจะจับตัวอย่าง “ความคมชัดสูง” ที่มีรางวัลสูงมากหรือต่ำมากได้ง่ายกว่า จึงให้สัญญาณความได้เปรียบที่ชัดเจนและมั่นคงกว่า ผลักดันให้นโยบายอัปเดตได้มีประสิทธิภาพมากขึ้น ข้อมูลการทดลองก็ยืนยันสิ่งนี้: เพียงเพิ่มขนาดพูลสำรวจจาก 24 เป็น 96 ดัชนีการปรับแนว HPSv2 ของโมเดลก็เพิ่มขึ้นอย่างน่าพอใจ
อย่างไรก็ตาม “กฎแห่งขนาด” นี้เผชิญกับความท้าทายในความเป็นจริงที่รุนแรง: ต้นทุนการคำนวณ

รูปที่ 3a: การแยกส่วนเวลาของการสุ่มตัวอย่างและการฝึกในความแม่นยำต่างๆ แกนนอน “K-in-N (P)” หมายถึง ที่ความแม่นยำ P เลือก K ตัวอย่างจาก N ตัวอย่างที่สร้างขึ้นสำหรับการฝึก ที่ความแม่นยำสูง BF16 เมื่อ N เพิ่มขึ้น (เช่น 24-in-96) เวลาในการสุ่มตัวอย่างไปข้างหน้า (rollout) จะมากเกินกว่าการแพร่ย้อนกลับ กลายเป็นคอขวดหลักของประสิทธิภาพการวนซ้ำ
ดังแสดงในรูปที่ 3a ภายใต้การตั้งค่าความแม่นยำสูง (BF16) แบบดั้งเดิม เมื่อทำการสำรวจขนาดใหญ่ เวลาในการสร้างตัวอย่างไปข้างหน้าของโมเดลครอบครองวัฏจักรการคำนวณส่วนใหญ่ กระบวนการสำรวจที่หนาแน่นด้วยการคำนวณ นี้กลายเป็น “จุดอ่อนแห่งอคิลลีส” ที่จำกัดประสิทธิภาพการฝึก
2.2 กับดักการควอนไทซ์: การสูญเสียความแม่นยำทำให้การฝึกล่มสลาย
วิธีแก้ปัญหาตามสัญชาตญาณคือ: ใช้การคำนวณความแม่นยำต่ำ (เช่น รูปแบบ NVFP4 ของ NVIDIA) เพื่อเร่งกระบวนการสุ่มตัวอย่างไปข้างหน้า NVFP4 ผ่านเทคโนโลยีการปรับขนาดเล็กระดับบล็อก (Block-level Micro-scaling) สามารถให้ปริมาณงานการคำนวณทางทฤษฎีหลายเท่าของ BF16 บนฮาร์ดแวร์ที่รองรับ
แต่การทดลองให้คำเตือนที่ชัดเจน: การใช้ตัวอย่างที่สร้างด้วยความแม่นยำต่ำโดยตรงสำหรับการปรับปรุงนโยบาย จะทำให้กระบวนการฝึกไม่เสถียรอย่างรุนแรงหรือล้มเหลวโดยสิ้นเชิง

รูปที่ 3b: การลดลงของประสิทธิภาพและความไม่เสถียรที่เกิดจากการใช้ตัวอย่างความแม่นยำ FP4 โดยตรงในการฝึก เมื่อเทียบกับเส้นฐาน BF16 เส้นโค้งรางวัลของการฝึกโดยตรงด้วย FP4 (FP4 Direct Training) สั่นไหวอย่างรุนแรงและล่มสลาย
ดังแสดงในรูปที่ 3b การใช้ตัวอย่าง FP4 โดยตรงสำหรับการฝึก ประสิทธิภาพของโมเดลจะแย่ลงอย่างรวดเร็ว สาเหตุหลักมีสองประการ:
- อคตินโยบายที่แตกต่าง (Off-policy Bias): การเรียนรู้เสริม โดยเฉพาะอัลกอริทึมนโยบายเดียวกัน (On-policy) มีความไวต่อการกระจายของข้อมูลฝึกเป็นอย่างมาก เส้นทางการสุ่มตัวอย่างของโมเดลควอนไทซ์
π_FP4มีความคลาดเคลื่อนโดยธรรมชาติกับการกระจายข้อมูลจริงของนโยบายความแม่นยำสูงดั้งเดิมπ_BF16ความคลาดเคลื่อนนี้จะถูกขยายในกระบวนการสะสมหลายขั้นตอนของการกำจัดสัญญาณรบกวนของโมเดล Diffusion ทำให้ข้อมูลที่ใช้คำนวณเกรเดียนต์เบี่ยงเบนจากประสิทธิภาพจริงของนโยบายปัจจุบันอย่างรุนแรง และนำไปสู่การแยกตัวของการฝึก - การปนเปื้อนฟังก์ชันวัตถุประสงค์: การฝึกโมเดล Diffusion โดยพื้นฐานคืองานถดถอย (Regression) ตามการจับคู่คะแนน (Score Matching) สัญญาณรบกวนและความบิดเบือนเชิงตัวเลขที่การสุ่มตัวอย่าง FP4 นำเข้ามา เทียบเท่ากับการเพิ่มสัญญาณรบกวนให้กับวัตถุประสงค์ถดถอย
x_0การบังคับให้โมเดลความแม่นยำสูงปรับให้เข้ากับวัตถุประสงค์ความเที่ยงตรงต่ำที่ “ปนเปื้อน” นี้ ก็เหมือนกับการกำหนดขีดจำกัดบนที่ข้ามไม่ได้ให้กับประสิทธิภาพของมัน
2.3 ความเข้าใจลึกซึ้งสำคัญ: FP4 ทำหน้าที่จัดอันดับได้ ไม่ใช่การสร้าง
ความก้าวหน้าของ Sol-RL มาจากการเปลี่ยนแนวคิด: ไม่บังคับให้ FP4 สร้างภาพที่สมบูรณ์แบบ แต่สำรวจว่า FP4 เพียงพอที่จะตัดสินความได้เปรียบเปรียบเทียบของผลลัพธ์การสร้างที่แตกต่างกันได้อย่างน่าเชื่อถือหรือไม่
คำตอบคือใช่ ทีมวิจัยพบว่า แม้การควอนไทซ์ FP4 จะทำให้เกิดความบิดเบือนรายละเอียดระดับพิกเซล (ดังแสดงในรูปที่ 6) แต่มัน ยังคงรักษาเค้าโครงความหมายระดับมหภาคและโครงสร้างของภาพไว้โดยพื้นฐาน ในโหมดการสุ่มตัวอย่างแบบกำหนดได้ (Deterministic Sampling) “โครงกระดูก” ของผลลัพธ์การสร้าง
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29880
