Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง

คำสำคัญ: Diffusion RL, การควอนไทซ์ NVFP4, การฝึกสองขั้นตอนแบบแยกส่วน, การออกแบบร่วมระหว่างอัลกอริทึมและฮาร์ดแวร์, GRPO, สถาปัตยกรรม Blackwell

ในด้านการปรับแนวหลังการฝึก (Post-training Alignment) ของโมเดล Diffusion แบบข้อความเป็นภาพ วิธีการเรียนรู้เสริม (Reinforcement Learning) เช่น GRPO แม้จะมีประสิทธิภาพโดดเด่น แต่ก็ติดอยู่ในวังวนของต้นทุนการคำนวณมหาศาลจาก “การสุ่มตัวอย่างขนาดใหญ่ (Scalable Sampling)”

ทีมวิจัยร่วมจาก NVIDIA, มหาวิทยาลัยฮ่องกง และ MIT ได้เสนอ เฟรมเวิร์ก Sol-RL ซึ่งไม่ได้ใช้เส้นทางดั้งเดิมของการควอนไทซ์โมเดลโดยตรงแบบหยาบๆ แต่กลับมองเห็นว่าในกระบวนการเรียนรู้เสริมนั้น ขั้นตอนการสำรวจ (Exploration) และขั้นตอนการปรับปรุง (Optimization) มีความทนทานต่อความแม่นยำของค่าตัวเลขที่แตกต่างกันโดยพื้นฐาน

ประโยคที่ว่า “Increasing the rollout group size yields pronounced performance improvements, indicating substantial room for further alignment gains” นั้น ทั้งเผยให้เห็นศักยภาพในการปรับปรุงประสิทธิภาพผ่านการขยายขนาดการสุ่มตัวอย่าง และยังชี้ให้เห็นถึงข้อจำกัดด้านพลังการคำนวณที่ตามมาด้วย

Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง

  • ชื่อบทความวิจัย: FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
  • ลิงก์บทความวิจัย: https://www.alphaxiv.org/abs/2604.06916
  • ซอร์สโค้ดโอเพ่นซอร์ส: https://github.com/NVlabs/Sana/
  • หน้าโครงการ: https://nvlabs.github.io/Sana/Sol-RL/

จุดเน้นของการพัฒนา AI สร้างสรรค์ยุคใหม่ได้เปลี่ยนจากกฎแห่งขนาด (Scaling Law) ในขั้นก่อนฝึก ไปสู่การปรับแนวหลังการฝึกอย่างเงียบๆ ในขอบเขตของโมเดล Diffusion วิธีการปรับแนวโดยใช้การเรียนรู้เสริม (เช่น DDPO, GRPO และรูปแบบแปรผัน) ได้พิสูจน์แล้วว่า การขยายขนาดการสุ่มตัวอย่างสามารถเพิ่มคุณภาพการสร้างและความสอดคล้องกับความชอบของมนุษย์ได้อย่างมีเสถียรภาพและเห็นได้ชัด

อย่างไรก็ตาม ผลประโยชน์ด้านประสิทธิภาพนี้มาพร้อมกับต้นทุนการคำนวณที่สูง สำหรับโมเดลขนาดใหญ่ที่มีพารามิเตอร์หลายพันล้านตัว เช่น FLUX.1 ต้นทุนการคำนวณในการสร้างตัวอย่างผู้สมัครจำนวนมากในแต่ละรอบการฝึก ทำให้นักวิจัยส่วนใหญ่ต้องถอยห่าง ผู้เขียนชี้ให้เห็นถึงความขัดแย้งหลักอย่างแม่นยำ: ในกระบวนการดั้งเดิม มีเพียงตัวอย่างเปรียบเทียบคุณภาพสูงและต่ำจำนวนน้อยเท่านั้นที่ถูกใช้ในการอัปเดตเกรเดียนต์ ตัวอย่างที่สร้างขึ้นส่วนใหญ่จะถูกทิ้งไปหลังจากคำนวณรางวัลแล้ว ซึ่งเผยให้เห็นความซ้ำซ้อนของอัลกอริทึมอย่างมหาศาล

เมื่อเผชิญกับภาวะลำบากนี้ วิธีแก้ปัญหาตามสัญชาตญาณคือการใช้เทคโนโลยีการควอนไทซ์ความแม่นยำต่ำเพื่อเร่งการอนุมาน แต่บทความวิจัยชี้ให้เห็นว่า การแทนที่ตัวอย่าง BF16 ด้วยตัวอย่าง FP4 อย่างง่ายๆ เพื่อปรับปรุงนโยบาย จะทำให้เกิด “ช่องว่างนโยบายที่แตกต่าง (Off-policy Gap)” และการบิดเบือนความหมายระดับพิกเซล สุดท้ายนำไปสู่การล่มสลายของการฝึก

ความเข้าใจลึกซึ้งหลักของ Sol-RL อยู่ที่ “การแยกส่วน (Decoupling)” มันไม่ได้พยายามแก้ไขการสูญเสียความแม่นยำของ FP4 แต่กลับนิยามบทบาทของ FP4 ในกระบวนการเรียนรู้เสริมใหม่ โดยลดระดับจาก “เป้าหมายการปรับปรุง” ลงมาเป็น “ตัวกรองการสำรวจ (Exploration Filter)”

Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง
รูปที่ 1: Sol-RL บรรลุการปรับแนวข้อความเป็นภาพที่มีประสิทธิภาพสูงและความเที่ยงตรงสูง ด้านซ้ายคือภาพคุณภาพสูงที่สร้างโดย FLUX.1 และ SANA ที่ปรับแต่งด้วยวิธีนี้ ด้านขวาคือเส้นโค้งการฝึก ImageReward ซึ่งพิสูจน์ว่า Sol-RL บรรลุการเร่งความเร็วเวลาจริงสูงสุด 4.64 เท่า เพื่อให้ถึงระดับรางวัลที่เทียบเท่า และสุดท้ายลู่เข้าสู่ขีดจำกัดการปรับแนวที่สูงกว่า

การเปลี่ยนแปลงปรัชญาการออกแบบนี้ ทำให้ระบบสามารถใช้ประโยชน์จาก พลังการคำนวณสูงสุดทางทฤษฎี 4 เท่าของเอ็นจิ้น NVFP4 ในสถาปัตยกรรม NVIDIA Blackwell ได้อย่างเต็มที่ โดยเกือบไม่สูญเสียประสิทธิภาพสุดท้าย และบรรลุการเร่งความเร็วการฝึกที่เห็นได้ชัด

บทความนี้จะวิเคราะห์อย่างลึกซึ้งว่า Sol-RL ใช้การออกแบบ “การแยกส่วนสองขั้นตอน” อย่างไร เพื่อเปิดเส้นทางใหม่ที่มีประสิทธิภาพด้านพลังการคำนวณสำหรับการปรับแนวหลังการฝึกของโมเดล Diffusion

สารบัญบทความ

  • 一、พันธนาการพลังการคำนวณและแนวทางแก้ไข: ทำไมการควอนไทซ์แบบง่ายๆ ถึงล้มเหลวใน Diffusion RL?
    • 1.1 การยั่วยวนของกฎแห่งขนาดและคอขวดการสุ่มตัวอย่าง
    • 1.2 กับดักของการแทนที่โดยตรงด้วยการควอนไทซ์: อคตินโยบายที่แตกต่างและการบิดเบือนระดับพิกเซล
    • 1.3 ปรัชญาการแยกส่วนของ Sol-RL: ลดระดับ FP4 จาก “เป้าหมายการปรับปรุง” เป็น “ตัวกรองการสำรวจ”
  • 二、รายละเอียดทางเทคนิค: เฟรมเวิร์กการแยกส่วนสองขั้นตอนของ Sol-RL
    • 2.1 ขั้นตอนที่หนึ่ง: การสำรวจปริมาณสูงและการคัดเลือกเมล็ดพันธุ์ (Seed) โดยใช้ NVFP4
    • 2.2 ขั้นตอนที่สอง: การสร้างใหม่ความเที่ยงตรงสูงและการปรับปรุงนโยบายด้วย BF16
    • 2.3 การรับประกันทางทฤษฎี: ทำไมการจัดอันดับด้วย FP4 ถึงน่าเชื่อถือ?
  • 三、การทดสอบยืนยัน: หลักฐานประสิทธิภาพจาก FLUX ถึง SANA
    • 3.1 ประสิทธิภาพแบบครบวงจร: การเพิ่มขึ้นสองเท่าของความเร็วการลู่เข้าและประสิทธิภาพสุดท้าย
    • 3.2 การวิเคราะห์ประสิทธิภาพพลังการคำนวณ: อัตราการเร่งความเร็วของการสุ่มตัวอย่างและการวนซ้ำ
    • 3.3 การทดสอบแยกส่วน: ผลกระทบของขนาดการสำรวจและจำนวนขั้นตอน
    • 3.4 การวิเคราะห์คุณภาพการสร้าง: การรักษาความหมายและรายละเอียด
  • 四、งานที่เกี่ยวข้องและการเปรียบเทียบ
    • 4.1 วิวัฒนาการของการเรียนรู้เสริมในโมเดล Diffusion
    • 4.2 ความพยายามในการรวมการอนุมานบิตต่ำกับการเรียนรู้เสริม
    • 4.3 ข้อได้เปรียบที่แตกต่างของ Sol-RL
  • 五、สรุปและแนวโน้ม
    • 5.1 สรุป
    • 5.2 อภิปราย: ต้นทุนและข้อจำกัดที่อาจเกิดขึ้น
    • 5.3 ทิศทางงานในอนาคต

Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง

一、พันธนาการพลังการคำนวณและแนวทางแก้ไข: ทำไมการควอนไทซ์แบบง่ายๆ ถึงล้มเหลวใน Diffusion RL?

แม้การสุ่มตัวอย่างขนาดใหญ่จะนำสัญญาณเกรเดียนต์ที่ดีกว่า แต่ก็ย้ายคอขวดการฝึกของ Diffusion RL จากการแพร่ย้อนกลับ (Backpropagation) ไปสู่การสร้างไปข้างหน้าจำนวนมหาศาล การนำการควอนไทซ์ FP4 เข้ามาใช้อย่างง่ายๆ ไม่เพียงแต่แก้ปัญหาไม่ได้ แต่กลับสร้างปัญหาใหม่ของความไม่เสถียรในการฝึกและการลดลงของประสิทธิภาพ เนื่องจากการเดินทางกำจัดสัญญาณรบกวน (Denoising Trajectory) ที่เป็นเอกลักษณ์ของโมเดล Diffusion และความเข้มงวดของเป้าหมายการปรับปรุง การกำเนิดของ Sol-RL มาจากการแยกส่วนระบบของความขัดแย้งพื้นฐานระหว่าง “ประสิทธิภาพ” และ “ความเที่ยงตรง”

2. วิเคราะห์คอขวด: ทำไมการควอนไทซ์โดยตรงถึงใช้ไม่ได้

นวัตกรรมหลักของ Sol-RL มาจากความเข้าใจลึกซึ้งว่า: ในการเรียนรู้เสริมของโมเดล Diffusion ความต้องการความแม่นยำของข้อมูลสำหรับการสำรวจ (สร้างตัวอย่างผู้สมัคร) และการปรับปรุง (ใช้ตัวอย่างฝึก) นั้นแตกต่างกันโดยสิ้นเชิง ส่วนนี้ผ่านการวิเคราะห์การทดลองสามมิติ เผยให้เห็นภาวะลำบากที่เผชิญเมื่อใช้ตัวอย่างความแม่นยำต่ำ (FP4) ในการฝึกโดยตรง และให้เหตุผลถึงความจำเป็นในการแยกทั้งสองส่วนออกจากกัน

2.1 ผลกระทบของขนาดการสำรวจและคอขวดพลังการคำนวณ

ประสิทธิผลของการเรียนรู้เสริมในการปรับแนวโมเดล Diffusion ขึ้นอยู่กับความแม่นยำของการประมาณค่าฟังก์ชันความได้เปรียบ (Advantage Function) เป็นอย่างมาก ตัวอย่างเช่น วิธีการรางวัลสัมพัทธ์ภายในกลุ่ม (GRPO) ซึ่งหัวใจหลักอยู่ที่การใช้กลุ่มตัวอย่างที่สร้างจากคำใบ้เดียวกัน ผ่านการจัดอันดับรางวัลภายในกลุ่มเพื่อสร้างการประมาณค่าความได้เปรียบ จึงหลีกเลี่ยงความซับซ้อนและความไม่เสถียรของการฝึกเครือข่ายมูลค่า (Critic) เพิ่มเติมแบบดั้งเดิม

ในทางทฤษฎี การขยายพูลสำรวจ (คือจำนวนตัวอย่างที่สร้างในแต่ละกลุ่ม N) สามารถนำมาซึ่งผลประโยชน์ที่เห็นได้ชัด: พูลตัวอย่างที่ใหญ่กว่าจะจับตัวอย่าง “ความคมชัดสูง” ที่มีรางวัลสูงมากหรือต่ำมากได้ง่ายกว่า จึงให้สัญญาณความได้เปรียบที่ชัดเจนและมั่นคงกว่า ผลักดันให้นโยบายอัปเดตได้มีประสิทธิภาพมากขึ้น ข้อมูลการทดลองก็ยืนยันสิ่งนี้: เพียงเพิ่มขนาดพูลสำรวจจาก 24 เป็น 96 ดัชนีการปรับแนว HPSv2 ของโมเดลก็เพิ่มขึ้นอย่างน่าพอใจ

อย่างไรก็ตาม “กฎแห่งขนาด” นี้เผชิญกับความท้าทายในความเป็นจริงที่รุนแรง: ต้นทุนการคำนวณ

Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง
รูปที่ 3a: การแยกส่วนเวลาของการสุ่มตัวอย่างและการฝึกในความแม่นยำต่างๆ แกนนอน “K-in-N (P)” หมายถึง ที่ความแม่นยำ P เลือก K ตัวอย่างจาก N ตัวอย่างที่สร้างขึ้นสำหรับการฝึก ที่ความแม่นยำสูง BF16 เมื่อ N เพิ่มขึ้น (เช่น 24-in-96) เวลาในการสุ่มตัวอย่างไปข้างหน้า (rollout) จะมากเกินกว่าการแพร่ย้อนกลับ กลายเป็นคอขวดหลักของประสิทธิภาพการวนซ้ำ

ดังแสดงในรูปที่ 3a ภายใต้การตั้งค่าความแม่นยำสูง (BF16) แบบดั้งเดิม เมื่อทำการสำรวจขนาดใหญ่ เวลาในการสร้างตัวอย่างไปข้างหน้าของโมเดลครอบครองวัฏจักรการคำนวณส่วนใหญ่ กระบวนการสำรวจที่หนาแน่นด้วยการคำนวณ นี้กลายเป็น “จุดอ่อนแห่งอคิลลีส” ที่จำกัดประสิทธิภาพการฝึก

2.2 กับดักการควอนไทซ์: การสูญเสียความแม่นยำทำให้การฝึกล่มสลาย

วิธีแก้ปัญหาตามสัญชาตญาณคือ: ใช้การคำนวณความแม่นยำต่ำ (เช่น รูปแบบ NVFP4 ของ NVIDIA) เพื่อเร่งกระบวนการสุ่มตัวอย่างไปข้างหน้า NVFP4 ผ่านเทคโนโลยีการปรับขนาดเล็กระดับบล็อก (Block-level Micro-scaling) สามารถให้ปริมาณงานการคำนวณทางทฤษฎีหลายเท่าของ BF16 บนฮาร์ดแวร์ที่รองรับ

แต่การทดลองให้คำเตือนที่ชัดเจน: การใช้ตัวอย่างที่สร้างด้วยความแม่นยำต่ำโดยตรงสำหรับการปรับปรุงนโยบาย จะทำให้กระบวนการฝึกไม่เสถียรอย่างรุนแรงหรือล้มเหลวโดยสิ้นเชิง

Sol-RL: ทีมร่วมของ NVIDIA เปิดเผยความก้าวหน้าทางการคำนวณสำหรับการเรียนรู้แบบเสริมกำลังด้วยโมเดลแพร่กระจาย โดยใช้ FP4 สำรวจและ BF16 ฝึกฝนเพื่อประสิทธิภาพการจัดตำแหน่งที่สูง
รูปที่ 3b: การลดลงของประสิทธิภาพและความไม่เสถียรที่เกิดจากการใช้ตัวอย่างความแม่นยำ FP4 โดยตรงในการฝึก เมื่อเทียบกับเส้นฐาน BF16 เส้นโค้งรางวัลของการฝึกโดยตรงด้วย FP4 (FP4 Direct Training) สั่นไหวอย่างรุนแรงและล่มสลาย

ดังแสดงในรูปที่ 3b การใช้ตัวอย่าง FP4 โดยตรงสำหรับการฝึก ประสิทธิภาพของโมเดลจะแย่ลงอย่างรวดเร็ว สาเหตุหลักมีสองประการ:

  1. อคตินโยบายที่แตกต่าง (Off-policy Bias): การเรียนรู้เสริม โดยเฉพาะอัลกอริทึมนโยบายเดียวกัน (On-policy) มีความไวต่อการกระจายของข้อมูลฝึกเป็นอย่างมาก เส้นทางการสุ่มตัวอย่างของโมเดลควอนไทซ์ π_FP4 มีความคลาดเคลื่อนโดยธรรมชาติกับการกระจายข้อมูลจริงของนโยบายความแม่นยำสูงดั้งเดิม π_BF16 ความคลาดเคลื่อนนี้จะถูกขยายในกระบวนการสะสมหลายขั้นตอนของการกำจัดสัญญาณรบกวนของโมเดล Diffusion ทำให้ข้อมูลที่ใช้คำนวณเกรเดียนต์เบี่ยงเบนจากประสิทธิภาพจริงของนโยบายปัจจุบันอย่างรุนแรง และนำไปสู่การแยกตัวของการฝึก
  2. การปนเปื้อนฟังก์ชันวัตถุประสงค์: การฝึกโมเดล Diffusion โดยพื้นฐานคืองานถดถอย (Regression) ตามการจับคู่คะแนน (Score Matching) สัญญาณรบกวนและความบิดเบือนเชิงตัวเลขที่การสุ่มตัวอย่าง FP4 นำเข้ามา เทียบเท่ากับการเพิ่มสัญญาณรบกวนให้กับวัตถุประสงค์ถดถอย x_0 การบังคับให้โมเดลความแม่นยำสูงปรับให้เข้ากับวัตถุประสงค์ความเที่ยงตรงต่ำที่ “ปนเปื้อน” นี้ ก็เหมือนกับการกำหนดขีดจำกัดบนที่ข้ามไม่ได้ให้กับประสิทธิภาพของมัน

2.3 ความเข้าใจลึกซึ้งสำคัญ: FP4 ทำหน้าที่จัดอันดับได้ ไม่ใช่การสร้าง

ความก้าวหน้าของ Sol-RL มาจากการเปลี่ยนแนวคิด: ไม่บังคับให้ FP4 สร้างภาพที่สมบูรณ์แบบ แต่สำรวจว่า FP4 เพียงพอที่จะตัดสินความได้เปรียบเปรียบเทียบของผลลัพธ์การสร้างที่แตกต่างกันได้อย่างน่าเชื่อถือหรือไม่

คำตอบคือใช่ ทีมวิจัยพบว่า แม้การควอนไทซ์ FP4 จะทำให้เกิดความบิดเบือนรายละเอียดระดับพิกเซล (ดังแสดงในรูปที่ 6) แต่มัน ยังคงรักษาเค้าโครงความหมายระดับมหภาคและโครงสร้างของภาพไว้โดยพื้นฐาน ในโหมดการสุ่มตัวอย่างแบบกำหนดได้ (Deterministic Sampling) “โครงกระดูก” ของผลลัพธ์การสร้าง


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29880

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐