การฝึกอบรม AI ก่อนการฝึกแบบยืดหยุ่นได้ก้าวไปสู่ขอบเขตถัดไปแล้ว! ไม่ใช่เรื่องน่าประหลาดใจ: จาก Google
ตามคำอธิบาย Decoupled DiLoCo ที่พวกเขาเสนอเป็นเทคโนโลยีการฝึกอบรมแบบกระจายที่ปฏิวัติวงการ ซึ่งสามารถใช้ฮาร์ดแวร์ที่แตกต่างกันทั่วโลกในการฝึกอบรม และแม้ว่าฮาร์ดแวร์จะขัดข้อง ระบบก็จะไม่หยุดทำงาน!

ผลการวิจัยที่สำคัญนี้ได้รับความสนใจอย่างกว้างขวาง โดยโพสต์แชร์บน X ของ Arthur Douillard หนึ่งในผู้เขียนหลักของบทความ มียอดเข้าชมมากกว่า 2.6 ล้านครั้ง!
ที่น่าสนใจคือ Jeff Dean นักวิจัยชื่อดังและหัวหน้านักวิทยาศาสตร์ของ Google DeepMind และ Google Research ก็เป็นหนึ่งในผู้เขียนด้วย เขายังโพสต์หลายข้อความเพื่อแนะนำผลงานนี้

ในข้อความ เขายังเล่าถึงบทความที่เขาเป็นผู้เขียนหลักเมื่อ 14 ปีก่อนชื่อ Large Scale Distributed Deep Networks ในบทความ NeurIPS 2012 นี้ พวกเขาได้พิสูจน์แล้วว่าการฝึกอบรมขนาดใหญ่และเทคนิคแบบอะซิงโครนัสสามารถใช้ฝึกอบรมโครงข่ายประสาทเทียมขนาดใหญ่มาก และกระจายงานฝึกอบรมไปยังเครื่องนับพันเครื่องในลักษณะที่ทนทานต่อข้อผิดพลาด

และตอนนี้ Decoupled DiLoCo มีแนวโน้มที่จะทำให้แนวคิดนี้กลายเป็นการปฏิบัติทางวิศวกรรมขนาดใหญ่ที่ใช้งานได้จริง

- ชื่อบทความ: Decoupled DiLoCo for Resilient Distributed Pre-training
- ที่อยู่บทความ: https://arxiv.org/pdf/2604.21428v1
ภูมิหลัง: ยิ่งใหญ่เท่าไหร่ ข้อผิดพลาดก็ยิ่งบ่อยขึ้น
เพื่อเข้าใจความสำคัญของงานนี้ ก่อนอื่นต้องเข้าใจปัญหาพื้นฐานของการฝึกอบรม AI สมัยใหม่
ทุกวันนี้ การฝึกอบรมโมเดลภาษาขนาดใหญ่ มักใช้วิธีการขนานแบบ SPMD (Single Program Multiple Data) กล่าวโดยง่าย เหมือนกับคนงานทุกคนในโรงงานต้องทำงานบนสายการผลิตพร้อมกัน — แต่ละคนทำงานในขั้นตอนของตัวเอง แต่ทุกคนต้องทำเสร็จพร้อมกันเพื่อก้าวไปยังขั้นตอนถัดไป หากจุดใดจุดหนึ่งมีปัญหา สายการผลิตทั้งหมดต้องหยุดรอ
ในขนาดเล็กนี่ไม่ใช่ปัญหา แต่เมื่อคลัสเตอร์ขยายไปถึงชิปหลายแสนหรือหลายล้านชิ้น ความน่าจะเป็นก็เริ่มเข้ามามีบทบาท
ในบทความมีการคำนวณโดยตรง: สมมติว่าชิปแต่ละตัวเสียโดยเฉลี่ยปีละครั้ง ซึ่งฟังดูน่าเชื่อถือแล้ว แต่ถ้าคลัสเตอร์มีชิป 2.4 ล้านตัว ระยะเวลาเฉลี่ยระหว่างความเสียหายของคลัสเตอร์ทั้งหมดจะลดลงเหลือไม่ถึงหนึ่งนาที ในขนาดนี้ ความเสียหายของฮาร์ดแวร์ไม่ใช่เรื่องบังเอิญอีกต่อไป แต่เป็นเรื่องปกติในกระบวนการฝึกอบรม
วิธีการรับมือในปัจจุบันคือ “การฝึกอบรมแบบยืดหยุ่น”: เมื่อตรวจพบว่าเครื่องใดเครื่องหนึ่งล่ม ก็ปรับการกำหนดค่าคลัสเตอร์ใหม่ และใช้เครื่องที่เหลือที่ยังดีอยู่ทำงานต่อ แต่กระบวนการปรับการกำหนดค่านี้ใช้เวลามาก ทำให้คลัสเตอร์ไม่สามารถคำนวณที่มีประสิทธิภาพได้ในระหว่างรอ
ข้อมูลจำลองในบทความแสดงให้เห็นว่า ในขนาด 2.4 ล้านชิป แม้จะมีกลไกยืดหยุ่น เวลาคำนวณที่มีประสิทธิภาพจริง (Goodput) ก็มีเพียง 40% — นั่นคือ 60% ของเวลาคลัสเตอร์อยู่ในสถานะรอหรือปรับการกำหนดค่า สิ้นเปลืองพลังการคำนวณ
ทำลายพันธนาการของ “การประสานจังหวะ”
แนวคิดหลักของ Decoupled DiLoCo คือการละทิ้งสมมติฐานที่ว่าเครื่องทั้งหมดต้องซิงโครไนซ์กัน


กรอบงานนี้แบ่งคลัสเตอร์ฝึกอบรมทั้งหมดออกเป็น “ผู้เรียนรู้” (Learner) อิสระหลายตัว ผู้เรียนรู้แต่ละตัวฝึกอบรมด้วยข้อมูลที่ได้รับแยกกัน โดยไม่ต้องรอผู้เรียนรู้อื่น เมื่อผู้เรียนรู้ตัวใดตัวหนึ่งขัดข้อง ผู้เรียนรู้ที่เหลือจะไม่รับรู้เลย และดำเนินการฝึกอบรมตามจังหวะของตนเองต่อไป เปรียบเสมือนการแยกห้องสอบขนาดใหญ่เป็นห้องสอบอิสระหลายห้อง หากเกิดเหตุเพลิงไหม้ในห้องหนึ่งและต้องอพยพ ก็ไม่ส่งผลกระทบต่อนักเรียนในห้องอื่นที่ยังคงทำข้อสอบต่อไป

แล้วผู้เรียนรู้ต่างๆ จะทำงานร่วมกันอย่างไรเพื่อให้ได้โมเดลเดียวกันในที่สุด?
ที่นี่มีการนำ “ตัวซิงโครไนซ์” (Syncer) ที่มีน้ำหนักเบาเข้ามา ตัวซิงโครไนซ์ทำงานบนทรัพยากร CPU ที่ค่อนข้างเสถียร มีหน้าที่รวบรวมการอัปเดตพารามิเตอร์จากผู้เรียนรู้แต่ละตัวเป็นระยะ ทำการรวมเข้าด้วยกัน แล้วส่งผลลัพธ์ที่รวมแล้วกลับไป

ประเด็นสำคัญคือ: ตัวซิงโครไนซ์ไม่จำเป็นต้องรอให้ผู้เรียนรู้ทั้งหมดพร้อมก่อนเริ่มรวม ตราบใดที่มีผู้เรียนรู้จำนวนเพียงพอ (เรียกว่า “จำนวนขั้นต่ำตามกฎ” หรือ Minimum Quorum) รายงานความคืบหน้า ตัวซิงโครไนซ์ก็สามารถเริ่มทำงานได้ ส่วนผู้เรียนรู้ที่ขัดข้องจะถูกข้ามไป และเมื่อฟื้นตัวก็จะตามมาทีหลัง
นอกจากนี้ เนื่องจากความเร็วในการคำนวณของผู้เรียนรู้อาจแตกต่างกัน (โดยเฉพาะเมื่อใช้ชิปรุ่นเก่าและใหม่ผสมกัน) ผู้เรียนรู้ที่เร็วกว่าจะประมวลผลข้อมูลในช่วงซิงค์ได้มากกว่าผู้ที่ช้ากว่า เพื่อหลีกเลี่ยงไม่ให้ผู้เรียนรู้ที่เร็วมี “หนึ่งเสียงเทียบหลายเสียง” ในการรวม ตัวซิงโครไนซ์จึงนำกลไกน้ำหนักแบบไดนามิกตามจำนวน token ที่ประมวลผลมาใช้ เพื่อให้ผลลัพธ์การรวมสะท้อนถึงการมีส่วนร่วมที่แท้จริงของผู้เรียนรู้แต่ละตัวอย่างยุติธรรม
ยังมีรายละเอียดอีกอย่างที่เรียกว่า “หน้าต่างผ่อนผันแบบปรับตัว” (Adaptive Grace Window): หลังจากถึงจำนวนขั้นต่ำตามกฎแล้ว ตัวซิงโครไนซ์จะไม่รวมทันที แต่จะรออีกเล็กน้อยเพื่อให้ผู้เรียนรู้มากขึ้นตามทันรอบการซิงค์นี้ ซึ่งจะช่วยเพิ่มคุณภาพของการรวมแต่ละครั้ง เวลารอนี้ถูกควบคุมอย่างระมัดระวังให้อยู่ในช่วงที่ไม่ส่งผลกระทบต่อความเร็วในการฝึกอบรมโดยรวม

รายละเอียดทางเทคนิคอีกอย่างคือ “การแบ่งเทนเซอร์อย่างสมดุล” (Balanced Tensor Fragmentation) พารามิเตอร์โมเดลจะไม่ถูกส่งเป็นชิ้นใหญ่ก้อนเดียว แต่ถูกแบ่งเป็นชิ้นเล็กๆ ที่มีขนาดใกล้เคียงกันหลายชิ้น ในแต่ละขั้นตอนจะส่งเพียงชิ้นเดียว ทำให้ภาระการสื่อสารกระจายอย่างสม่ำเสมอ หลีกเลี่ยงการส่งแบบ “พัลส์” ที่ใช้แบนด์วิดท์ขึ้นลงอย่างรุนแรง

ผลการทดลอง: เมื่ออัตราข้อผิดพลาดสูงมาก ประสิทธิภาพแทบไม่ลดลง
บทความใช้การทดลองจำนวนมากเพื่อตรวจสอบประสิทธิภาพที่แท้จริงของแนวทางนี้
ในด้าน Goodput (อัตราการส่งผ่านที่มีประสิทธิภาพ) การจำลองสถานการณ์ด้วยชิป 2.4 ล้านตัว โดยแต่ละตัวเสียปีละครั้ง (ในกรณีนี้ระยะห่างระหว่างความเสียหายของคลัสเตอร์ทั้งหมดน้อยกว่าหนึ่งนาที) Decoupled DiLoCo ที่ใช้ผู้เรียนรู้ 8 ตัว รักษา Goodput ไว้ที่ 88% ในขณะที่ภายใต้เงื่อนไขเดียวกัน แนวทางขนานข้อมูลแบบยืดหยุ่นแบบดั้งเดิมมี Goodput เพียง 58%

ในด้านคุณภาพโมเดล บทความเปรียบเทียบผลการฝึกอบรมโมเดลหนาแน่น 5 พันล้านพารามิเตอร์บน 1 ล้านล้าน token ไม่ว่าจะเป็นเกณฑ์มาตรฐานข้อความ (ARC, BoolQ, HellaSwag ฯลฯ) หรือเกณฑ์มาตรฐานภาพ (DocVQA, TextVQA ฯลฯ) คะแนนการประเมินปลายน้ำของ Decoupled DiLoCo แทบไม่แตกต่างจากการฝึกอบรมขนานข้อมูลแบบดั้งเดิม กล่าวคือ ความสามารถในการทนทานต่อข้อผิดพลาดเพิ่มขึ้นอย่างมาก แต่ไม่ได้แลกมากับคุณภาพโมเดล

บทความยังตรวจสอบประสิทธิภาพของแนวทางนี้ในสถานการณ์ที่ใช้ชิปรุ่นเก่าผสม (TPUv5e และ TPUv5p) แม้ว่าผู้เรียนรู้ที่ช้าที่สุดจะช้ากว่าผู้เรียนรู้ที่เร็วที่สุดเกือบ 20% แต่ด้วยการผสมผสานระหว่างจำนวนขั้นต่ำตามกฎและหน้าต่างผ่อนผันแบบปรับตัว ระบบยังคงบรรลุคุณภาพโมเดลที่เทียบเท่ากับการฝึกอบรมแบบซิงโครนัสเต็มรูปแบบ ในขณะที่อัตราการใช้การคำนวณยังคงอยู่ที่ 100%
ในด้านการใช้แบนด์วิดท์ ตัวเลขนั้นน่าทึ่งมาก เพื่อให้ได้อัตราการใช้การคำนวณ 90% แนวทางขนานข้อมูลแบบดั้งเดิมในสถานการณ์ที่มีขั้นตอนการคำนวณ 1 วินาทีและศูนย์ข้อมูล 2 แห่ง ต้องใช้แบนด์วิดท์ประมาณ 104 Gbits/s ในขณะที่ Decoupled DiLoCo ต้องการเพียง 1.7 Gbits/s และเมื่อใช้การบีบอัด int4 ก็ลดลงเหลือ 0.43 Gbits/s ความต้องการแบนด์วิดท์ลดลงประมาณสองลำดับความสำคัญ
พื้นที่จินตนาการที่ใหญ่กว่า: การ “เก็บตก” พลังการคำนวณ
ความต้องการแบนด์วิดท์ต่ำนำมาซึ่งมูลค่าเพิ่มที่ไม่คาดคิด: สามารถ “เก็บตก” ทรัพยากรการคำนวณที่พร้อมใช้งานชั่วคราวได้ตลอดเวลา
การฝึกอบรมขนานข้อมูลแบบดั้งเดิมเมื่อต้องการเพิ่มเครื่องใหม่ ต้องส่งพารามิเตอร์โมเดลที่สมบูรณ์ในปัจจุบันไปก่อน กระบวนการนี้อาจใช้เวลามากของคลัสเตอร์ทั้งหมด ทำให้ประสิทธิภาพการฝึกอบรมลดลงอย่างมากทันทีที่เพิ่มเครื่องใหม่
Decoupled DiLoCo แตกต่างออกไป เมื่อผู้เรียนรู้ใหม่เข้าร่วม สามารถดึงสถานะโมเดลปัจจุบันจากผู้เรียนรู้ใกล้เคียงแบบอะซิงโครนัสก่อน ในระหว่างนี้ผู้เรียนรู้อื่นไม่ได้รับผลกระทบเลยและฝึกอบรมต่อไปตามปกติ
บทความทำการทดลอง: ในระหว่างการฝึกอบรม เพิ่มผู้เรียนรู้ชั่วคราวพิเศษแบบไดนามิก (จำลองสถานการณ์ที่พลังการคำนวณที่มีในตอนกลางวันเพิ่มขึ้น) ผลลัพธ์แสดงให้เห็นว่า ยิ่งเพิ่มพลังการคำนวณชั่วคราวมากเท่าไหร่ เวลาฝึกอบรมก็ยิ่งสั้นลง และคุณภาพโมเดลไม่ได้รับผลกระทบ ในขณะที่เกณฑ์มาตรฐานขนานข้อมูลภายใต้การตั้งค่าเดียวกัน พลังการคำนวณเพิ่มเติมต้องมากกว่าสองเท่าจึงจะเริ่มเห็นประโยชน์
นั่นหมายความว่า พลังการคำนวณที่กระจัดกระจายในภูมิภาคต่างๆ โซนเวลาต่างกัน และฮาร์ดแวร์ต่างรุ่นกัน ก็สามารถรวมเข้าไว้ในงานฝึกอบรมเดียวกันได้ แม้ว่าแบนด์วิดท์เครือข่ายระหว่างกันจะน้อยกว่าภายในศูนย์ข้อมูลทั่วไปหลายสิบเท่า
แนวคิดเก่า ในที่สุดก็รอเงื่อนไขทางวิศวกรรม
Jeff Dean เล่าในบทความปี 2012 ว่า ตอนนั้นพวกเขาคิดแล้วว่า: หากสามารถทนต่อความไม่สอดคล้องกันในระดับหนึ่งได้ การฝึกอบรมจะยืดหยุ่นมากขึ้นหรือไม่? แต่ด้วยข้อจำกัดด้านขนาดและเงื่อนไขทางวิศวกรรมในขณะนั้น แนวคิดนี้จึงไม่สามารถนำไปใช้ได้อย่างสมบูรณ์
สิบสี่ปีต่อมา เมื่อโมเดลขยายไปถึงหลายพันล้านพารามิเตอร์ และคลัสเตอร์ฝึกอบรมมีชิปหลายแสนหรือหลายล้านตัว ปัญหานี้ไม่ใช่แค่ปัญหาการวิจัยอีกต่อไป แต่เป็นปัญหาทางวิศวกรรมที่ “ต้องแก้ไข”
คำตอบที่ Decoupled DiLoCo ให้คือ: ละทิ้งความสอดคล้องกันอย่างเข้มงวดทั่วโลก ใช้ความอะซิงโครนัสและการกระจายอำนาจเพื่อแลกกับความพร้อมใช้งาน พร้อมกับลดการสูญเสียคุณภาพโมเดลให้แทบไม่เห็นผ่านการออกแบบอัลกอริทึมที่พิถีพิถัน
บทความสรุปว่า: เมื่อการฝึกอบรมก่อนการฝึกขยายไปยังคลัสเตอร์ข้ามภูมิภาค สภาพแวดล้อมที่ถูกจำกัดทั้งแบนด์วิดท์และความน่าเชื่อถือของฮาร์ดแวร์จะกลายเป็นเรื่องปกติมากขึ้น กระบวนทัศน์การฝึกอบรมที่ “ให้ความสำคัญกับความพร้อมใช้งาน” จะเปลี่ยนจาก “มีข้อได้เปรียบ” เป็น “จำเป็น”
ดูเหมือนว่าบทความนี้กำลังกำหนดนิยามใหม่ของโครงสร้างพื้นฐานสำหรับการฝึกอบรมโมเดลขนาดใหญ่พิเศษรุ่นต่อไป
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32048
