ก้าวข้ามข้อจำกัดการหาปริมาณ NVFP4: Quartet II และ MS-EDEN บรรลุการเร่งการฝึก 4.2 เท่า และลดการสูญเสีย 20%

2026年2月9日 pm1:29 • ข่าวสารอุตสาหกรรม AI • 202 views

คำสำคัญ: NVFP4, Quartet II, MS-EDEN, การประมาณค่ากราดิเอนต์แบบไม่เอนเอียง, การฝึกอบรมแบบบิตต่ำ

การปัดเศษแบบสุ่ม (Stochastic Rounding, SR) เป็นเทคนิคที่แมปค่าตัวเลขไปยังกริดความแม่นยำต่ำที่จำกัดและไม่ต่อเนื่อง ต่างจากการ “ปัดเศษเป็นค่าที่ใกล้ที่สุด” มาตรฐาน SR จะตัดสินใจ “ปัดเศษขึ้น” หรือ “ปัดเศษลง” ตามความน่าจะเป็นที่ขึ้นกับระยะห่างระหว่างค่าตัวเลขกับจุดกริดที่ใกล้ที่สุดสองจุด ในฐานะที่เป็นเทคนิคพื้นฐานในการฝึกอบรมความแม่นยำต่ำ มันแลกเปลี่ยนการนำความสุ่มเข้ามาเพื่อให้ได้การประมาณค่ากราดิเอนต์ที่ไม่เอนเอียง ซึ่งช่วยรับประกันความเสถียรในการฝึกอบรม แต่ต้องแลกกับการนำเสียงเพิ่มเติมเข้ามา บทความนี้มีเป้าหมายเพื่อปรับปรุงข้อเสียของ SR นี้

ก้าวข้ามข้อจำกัดการหาปริมาณ NVFP4: Quartet II และ MS-EDEN บรรลุการเร่งการฝึก 4.2 เท่า และลดการสูญเสีย 20%

Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
https://arxiv.org/pdf/2601.22813
โค้ด: https://github.com/IST-DASLab/Quartet-II

NVFP4 เป็นรูปแบบความแม่นยำต่ำที่ได้รับการสนับสนุนฮาร์ดแวร์พื้นเมืองจาก GPU สถาปัตยกรรม NVIDIA Blackwell ซึ่งคาดว่าจะทำให้การฝึกอบรมล่วงหน้าปลายทางถึงปลายทางแบบควอนไทซ์เต็มรูปแบบของโมเดลขนาดใหญ่ เช่น ภาษาขนาดใหญ่ (LLM) เป็นไปได้เป็นครั้งแรก

อย่างไรก็ตาม วิธีการฝึกอบรมควอนไทเซชันกระแสหลักในปัจจุบันต้องจำกัดความสามารถในการแสดงผลของ NVFP4 เพื่อให้ได้การประมาณค่ากราดิเอนต์ที่แม่นยำและไม่เอนเอียงด้วยความช่วยเหลือของการปัดเศษแบบสุ่ม (Stochastic Rounding, SR) ซึ่งนำไปสู่การสูญเสียความแม่นยำที่เห็นได้ชัดในการฝึกอบรมจริง – เมื่อเทียบกับการฝึกอบรม FP16 หรือ FP8 มาตรฐาน ประสิทธิภาพของโมเดลลดลงอย่างมีนัยสำคัญมากขึ้น

ในบทความนี้ เราได้ปรับปรุง SOTA ของการฝึกอบรมควอนไทเซชัน NVFP4 ผ่านวิธีการควอนไทเซชันแบบไม่เอนเอียงใหม่ที่เรียกว่า MS-EDEN (MicroScaling EDEN) ซึ่งออกแบบมาสำหรับรูปแบบการปรับขนาดไมโคร โดยมีข้อผิดพลาดควอนไทเซชันต่ำกว่า SR มากกว่า 2 เท่า เราได้รวมมันเข้ากับโครงร่างใหม่ที่เรียกว่า Quartet II ซึ่งเป็น 【การควอนไทเซชันชั้นเชิงเส้น NVFP4 เต็มรูปแบบ】

หมายเหตุ: EDEN เป็นเครื่องมือทางทฤษฎี “ตัวสร้างการประมาณค่าแบบไม่เอนเอียง” ที่ถูกเสนอมาก่อนหน้านี้ MS-EDEN ในบทความนี้คือการ “ย้ายถิ่น” และ “การปรับเปลี่ยนให้เหมาะกับรูปแบบ” ที่ประสบความสำเร็จของเครื่องมือนี้ เพื่อให้สามารถใช้ในการฝึกอบรมโมเดล 4 บิตจริงได้

เราได้พิสูจน์จากการวิเคราะห์ว่า Quartet II ได้รับการประมาณค่ากราดิเอนต์ที่ดีขึ้นอย่างต่อเนื่องในการคูณเมทริกซ์หลักทั้งหมด ทั้งในการส่งต่อและในการแพร่ย้อนกลับ นอกจากนี้ โครงร่างของเรา มีผลเสริมกันที่ดีกับการปรับปรุงการฝึกอบรมล่าสุดที่ออกแบบมาเฉพาะสำหรับ NVFP4 เรายืนยันผลการฝึกอบรมปลายทางถึงปลายทางของ Quartet II เพิ่มเติมโดยการฝึกอบรม LLM ขนาดสูงสุด 1.9B พารามิเตอร์บนโทเค็นมากถึง 38B

เราได้ให้เคอร์เนลที่ทำงานบน GPU NVIDIA Blackwell ซึ่งสามารถเร่งความเร็วได้สูงสุด 4.2 เท่าเมื่อเทียบกับ BF16 โค้ดโอเพ่นซอร์ส: https://github.com/IST-DASLab/Quartet-II

คำถามที่หนึ่ง: ความตึงเครียดระหว่างทฤษฎีความไม่เอนเอียงกับการประนีประนอมฮาร์ดแวร์

คำสัญญาทางทฤษฎีหลักของวิธีการ MS-EDEN คือการให้การประมาณค่ากราดิเอนต์ที่ไม่เอนเอียง แต่ ผู้เขียนยอมรับว่าได้ประนีประนอมเพื่อความเข้ากันได้ของฮาร์ดแวร์ในการนำไปใช้จริง: ใช้กลุ่มการหมุนคงที่ขนาด 128 มิติ แชร์การหมุนเดียวกันภายในกลุ่ม และละเลยการปัดเศษแบบสุ่มของค่า FP8 ที่เล็กมาก การประนีประนอมทางวิศวกรรมเหล่านี้ทำลาย “การรับประกันความไม่เอนเอียง” ทางทฤษฎีของวิธีการในสาระสำคัญหรือไม่? การตรวจสอบในรูปที่ 9 (ดูคำตอบ) อาศัยโมเดลเฉพาะ (Llama-3.2-1B) และบล็อกความสนใจ การประนีประนอมเหล่านี้ในการฝึกอบรม LLM ขนาดใหญ่และสถาปัตยกรรมที่แตกต่างกัน ยังคงสามารถรับประกันความไม่เอนเอียงของการประมาณค่ากราดิเอนต์ได้หรือไม่ เพื่อหลีกเลี่ยงการสะสมความเอนเอียงในการฝึกอบรมระยะยาว?

การประนีประนอมทางวิศวกรรมเหล่านี้ ไม่ได้ทำลายการรับประกันความไม่เอนเอียงในทางปฏิบัติ และบทความสนับสนุนข้อสรุปนี้ด้วยการตรวจสอบเชิงประจักษ์ที่เข้มงวด

ประการแรก จำเป็นต้องชี้แจงว่าคุณค่าหลักของความไม่เอนเอียงในการเพิ่มประสิทธิภาพคือการป้องกันไม่ให้ข้อผิดพลาด สะสมอย่างเป็นระบบ ในการฝึกอบรมระยะยาว ไม่ใช่การแสวงหาความผิดพลาดทางคณิตศาสตร์ที่เป็นศูนย์สัมบูรณ์ การประนีประนอมสามประการที่ผู้เขียนกล่าวถึง (มิติคงที่, การแชร์การหมุน, การละเลยการปัดเศษสเกลที่เล็กมาก) ถูกออกแบบอย่างรอบคอบทั้งหมด โดยมีเป้าหมายเพื่อลดผลกระทบที่อาจเกิดขึ้นต่อความไม่เอนเอียงให้อยู่ในระดับที่ละเลยได้ ขนาดมิติคงที่ 128 แม้ว่าจะเป็นการประมาณของมิติอนันต์ทางทฤษฎี แต่บทความ EDEN ต้นฉบับได้พิสูจน์แล้วว่า:

การลู่เข้าภายใต้ขนาดนี้เพียงพอแล้ว
การแชร์เมล็ดการหมุน แม้ว่าจะไม่เป็นอิสระโดยสมบูรณ์ แต่ยังคงรักษาฟังก์ชันหลักของการแปลงแบบสุ่มภายในแต่ละเทนเซอร์ ทำลายความสัมพันธ์ระหว่างข้อผิดพลาดควอนไทเซชันกับข้อมูลดั้งเดิม
การละเลยการปัดเศษ FP8 สำหรับค่าที่เล็กมาก (น้อยกว่าประมาณ 1/32000 ของค่าสูงสุด) เนื่องจากมีส่วนสนับสนุนต่อเกรเดียนต์โดยรวมน้อยมาก

ที่สำคัญที่สุดคือ บทความไม่ได้พึ่งพาการอ้างทางทฤษฎีเพียงอย่างเดียว แต่ได้ทำการตรวจสอบเชิงประจักษ์โดยตรงในภาคผนวก A ด้านล่างเป็นรูปภาพ:

รูปที่ 9 แสดงการลู่เข้าของค่าเฉลี่ยของการแพร่ย้อนกลับควอนไทซ์ของ Quartet II และหลายโครงการมาตรฐานไปยังการแพร่ย้อนกลับที่ไม่มีการควอนไทซ์ วิธีการที่ขนานกับแนวโน้ม 1/B เป็นวิธีการที่ไม่เอนเอียง วิธีการที่ลู่เข้าสู่ความคงที่ (เช่น NVIDIA+4/6) จะนำความเอนเอียงเข้ามา แผนภูมิแสดงผลลัพธ์สำหรับน้ำหนัก q_proj, k_proj, v_proj ในชั้นความสนใจของโมเดลตามลำดับ แกนนอนคือจำนวนขั้นตอนสะสม (B) รูปนี้ตรวจสอบความไม่เอนเอียงของโครงการผ่านข้อผิดพลาดกำลังสองสัมพัทธ์ระหว่างเกรเดียนต์เฉลี่ยจากการแพร่ย้อนกลับควอนไทซ์หลายครั้งกับเกรเดียนต์ที่ไม่มีการควอนไทซ์ การทดสอบอิงตามบล็อกความสนใจ 0 (ชั้นลึกสุดในการแพร่ย้อนกลับ) ของโมเดลฝึกอบรมล่วงหน้า Llama-3.2-1B ผลลัพธ์แสดงให้เห็นว่าข้อผิดพลาดของ Quartet II, โครงการ NVIDIA, TetraJet-v2 ลดลงตามการเพิ่มขึ้นของจำนวนขั้นตอนสะสมในอัตรา 1/B ซึ่งสอดคล้องกับคุณลักษณะของทฤษฎีบทขีดจำกัดกลางของการประมาณค่าแบบไม่เอนเอียง ในขณะที่ข้อผิดพลาดของโครงการ NVIDIA+4/6 มีแนวโน้มคงที่ ซึ่งพิสูจน์ว่าการแพร่ย้อนกลับของมันนำความเอนเอียงเชิงระบบเข้ามา ยืนยันความน่าเชื่อถือของการประมาณค่ากราดิเอนต์ของ Quartet II เพิ่มเติม

การตรวจสอบความไม่เอนเอียง: ความแข็งแกร่งในโมเดลจริงและการนำไปใช้

ดังที่แสดงในรูปที่ 9 โดยการคำนวณข้อผิดพลาดของเกรเดียนต์ควอนไทซ์เฉลี่ยจากการทดลองซ้ำจำนวนมาก ข้อผิดพลาดของ Quartet II ลดลงด้วยความเร็ว ~1/B ตามการเพิ่มขึ้นของจำนวนการทำซ้ำ B ซึ่งเป็นลักษณะเฉพาะของการประมาณค่าแบบไม่เอนเอียง (สอดคล้องกับทฤษฎีบทขีดจำกัดกลาง) การตรวจสอบนี้ไม่ได้ดำเนินการในสภาพแวดล้อม “เรือนกระจก” แต่ใช้โมเดล Llama-3.2-1B ที่ฝึกอบรมล่วงหน้าแล้ว และทดสอบในบล็อกที่ลึกที่สุดของการแพร่ย้อนกลับ ซึ่งพิสูจน์อย่างหนักแน่นว่าความไม่เอนเอียงยังคงมีอยู่แม้ในโมเดลจริงและการนำไปใช้ที่มีการประนีประนอม ดังนั้น การประนีประนอมเหล่านี้คือการแลกเปลี่ยนที่ประสบความสำเร็จระหว่างอุดมคติทางทฤษฎีกับประสิทธิภาพฮาร์ดแวร์ ไม่ใช่การทำลายการรับประกันหลัก

คำถามเกี่ยวกับความยุติธรรมของการเปรียบเทียบการทดลองและการตอบสนอง

คำถาม: เมื่อบทความเปรียบเทียบกับฐาน TetraJet-v2 ได้ระบุชัดเจนว่าไม่ได้นำการออกแบบที่สำคัญของมันไปใช้ (เช่น สเกล FP32 กลางและการจัดการช่องทางค่าผิดปกติ) แต่ใช้เพียงเซตย่อยที่ “เป็นไปได้บน GPU” สิ่งนี้นำไปสู่การประเมินประสิทธิภาพของ TetraJet-v2 ต่ำเกินไปหรือการเปรียบเทียบที่ไม่ยุติธรรมหรือไม่? หากนำการออกแบบเดิมของ TetraJet-v2 ไปใช้อย่างครบถ้วน Quartet II ยังคงสามารถรักษาข้อได้เปรียบที่สำคัญดังที่ระบุในบทความได้หรือไม่? การเปรียบเทียบแบบเลือกนี้ลดความน่าเชื่อถือของข้อสรุปที่บทความอ้างว่า “ดีกว่าโครงการที่มีอยู่ทั้งหมด” หรือไม่?

การตอบสนอง: วิธีการเปรียบเทียบของบทความ ไม่เพียงแต่ยุติธรรม แต่ยังมีความหมายเชิงปฏิบัติมากกว่า มันเปรียบเทียบโครงการที่ “สามารถนำไปใช้ได้ทันทีและมีประสิทธิภาพบนฮาร์ดแวร์ที่มีอยู่” ไม่ใช่การออกแบบที่ “ในอุดมคติแต่อาจไม่เป็นจริง”

ผู้เขียนระบุชัดเจนว่าการออกแบบเช่น สเกล FP32 กลางและช่องทางค่าผิดปกติแบบเลือกสรรที่เสนอในบทความต้นฉบับของ TetraJet-v2 “ต้องการการสนับสนุนเคอร์เนลที่ซับซ้อนมากขึ้น ซึ่งผู้เขียนไม่ได้ให้มา” ในการวิจัยทางวิศวกรรม การเปรียบเทียบ “ประสิทธิภาพทางทฤษฎี” ของการออกแบบที่ไม่สามารถทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์เป้าหมาย (ที่นี่หมายถึง GPU Blackwell) ไม่มีความหมาย ซึ่งจะนำไปสู่การเปรียบเทียบที่ “พูดแต่ทฤษฎี” ดังนั้น บทความเลือกที่จะเปรียบเทียบกับ แกนกลางเชิงตรรกะของ TetraJet-v2 ที่เป็นไปได้บน GPU ซึ่งถูกแยกความซับซ้อนที่ไม่เป็นจริงเหล่านี้ออกไป – นั่นคือ การส่งต่อใช้ RTN การแพร่ย้อนกลับใช้ SR กับ RHT ในมิติภายใน นี่คือการเปรียบเทียบความคิดอัลกอริทึมที่แตกต่างกันบนพื้นฐานเดียวกัน (ใช้เคอร์เนลที่นำไปใช้ได้ทั้งคู่)

ที่สำคัญกว่านั้น วิธีการที่เน้นความเป็นจริงนี้ กลับเพิ่มพลังการโน้มน้าวใจของข้อสรุปบทความ Quartet II ชนะไม่ใช่ฐานอ้างอิง “เวอร์ชันพิการ” แต่เป็นส่วนหลักของวิธีการฐานอ้างอิงนั้นที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพและสามารถนำไปใช้ได้

ผู้เขียนยังระบุเพิ่มเติมว่า 【แม้ว่า】จะละทิ้งวิธีการฮิวริสติกที่ซับซ้อนที่ออกแบบมาเพื่อชดเชยข้อบกพร่องของ SR ใน TetraJet-v2 (เช่น การควบคุมค่าผิดปกติ) และหันไปใช้ตัวประมาณ MS-EDEN ที่ดีกว่า สามารถได้รับผลลัพธ์ที่ดีขึ้นในขณะที่รักษาความเรียบง่าย นอกจากนี้ ผู้เขียนยังเปรียบเทียบ Quartet II กับโครงการ NVIDIA เวอร์ชันเต็มและ FourOverSix เป็นต้น ข้อได้เปรียบด้านประสิทธิภาพมีความสม่ำเสมอ

ดังนั้น การเปรียบเทียบนี้มุ่งเน้นไปที่ กำไรที่ได้จากนวัตกรรมหลักของอัลกอริทึม (MS-EDEN) ให้พื้นฐานที่ชัดเจนและน่าเชื่อถือสำหรับผู้ปฏิบัติงานในการเลือกโครงการที่ดีที่สุดที่สามารถนำไปใช้ได้จริง

หนึ่ง บทนำ

ต้นทุนการคำนวณในการฝึกอบรมโมเดลพื้นฐานที่ล้ำสมัยที่สุดกำลังเติบโตในอัตราใกล้เคียงเอกซ์โพเนนเชียล ซึ่งทำให้เกิดคำถามเกี่ยวกับความยั่งยืนของสาขานี้ เช่น [Amodei & Hernandez, 2018; Sevilla et al., 2022] การฝึกอบรมล่วงหน้าของโมเดลพื้นฐานสมัยใหม่ที่อิงตาม Transformer ถูกครอบงำโดยการคูณเมทริกซ์หนาแน่น (GEMMs) เป็นหลัก เช่น การฉายเชิงเส้นในกลไกความสนใจและ MLP (Multi-Layer Perceptron) ดังนั้น การลดความแม่นยำของ GEMM เหล่านี้คือวิธีที่ตรงที่สุดวิธีหนึ่งในการลดต้นทุนการฝึกอบรมปลายทางถึงปลายทาง

แรงจูงใจนี้ผลักดันให้เกิดวิวัฒนาการอย่างต่อเนื่องของโครงการฝึกอบรมความแม่นยำผสม ตั้งแต่ FP16/BF16 ถึง FP8 [Micikevicius et al., 2022] ปัจจุบันกำลังมุ่งสู่รูปแบบจุดลอยตัว 4 บิตที่ปรับขนาดไมโคร (เช่น MXFP และ NVFP) ในรูปแบบเหล่านี้ ค่าตัวเลขถูกเก็บในรูปแบบจุดลอยตัว 4 บิต แต่แต่ละบล็อกจะมาพร้อมกับตัวประกอบการปรับขนาดความแม่นยำสูงกว่า เช่น FP8 ซึ่งรักษาช่วงไดนามิกในขณะที่เร่งความเร็วด้วยเทนเซอร์คอร์

ตัวเร่งความเร็ว GPU ล่าสุดให้การสนับสนุนพื้นเมืองสำหรับรูปแบบดังกล่าว โดยให้ปริมาณงานสำหรับการคูณเมทริกซ์เดี่ยวเพิ่มขึ้น 2-4 เท่าเมื่อเทียบกับ FP8 [NVIDIA, 2024]

ความท้าทายสำคัญคือการรักษาคุณภาพการเพิ่มประสิทธิภาพระดับ FP16/FP8 ในขณะที่ดำเนินการส่วนใหญ่ด้วยความแม่นยำ 4 บิต [Xi et al., 2023; Chmiel et al., 2024] ในระดับนี้ การควอนไทเซชันแบบไร้เดียงสาจะนำไปสู่การแยกตัวในการฝึกอบรมล่วงหน้าระยะยาว

งานใหม่ที่เกิดขึ้นเกี่ยวกับการฝึก

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง