Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

การฝึกอบรม AI ก่อนการฝึกแบบยืดหยุ่นได้ก้าวไปสู่ขอบเขตถัดไปแล้ว! ไม่ใช่เรื่องน่าประหลาดใจ: จาก Google

ตามคำอธิบาย Decoupled DiLoCo ที่พวกเขาเสนอเป็นเทคโนโลยีการฝึกอบรมแบบกระจายที่ปฏิวัติวงการ ซึ่งสามารถใช้ฮาร์ดแวร์ที่แตกต่างกันทั่วโลกในการฝึกอบรม และแม้ว่าฮาร์ดแวร์จะขัดข้อง ระบบก็จะไม่หยุดทำงาน!

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

ผลการวิจัยที่สำคัญนี้ได้รับความสนใจอย่างกว้างขวาง โดยโพสต์แชร์บน X ของ Arthur Douillard หนึ่งในผู้เขียนหลักของบทความ มียอดเข้าชมมากกว่า 2.6 ล้านครั้ง!

ที่น่าสนใจคือ Jeff Dean นักวิจัยชื่อดังและหัวหน้านักวิทยาศาสตร์ของ Google DeepMind และ Google Research ก็เป็นหนึ่งในผู้เขียนด้วย เขายังโพสต์หลายข้อความเพื่อแนะนำผลงานนี้

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

ในข้อความ เขายังเล่าถึงบทความที่เขาเป็นผู้เขียนหลักเมื่อ 14 ปีก่อนชื่อ Large Scale Distributed Deep Networks ในบทความ NeurIPS 2012 นี้ พวกเขาได้พิสูจน์แล้วว่าการฝึกอบรมขนาดใหญ่และเทคนิคแบบอะซิงโครนัสสามารถใช้ฝึกอบรมโครงข่ายประสาทเทียมขนาดใหญ่มาก และกระจายงานฝึกอบรมไปยังเครื่องนับพันเครื่องในลักษณะที่ทนทานต่อข้อผิดพลาด

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

และตอนนี้ Decoupled DiLoCo มีแนวโน้มที่จะทำให้แนวคิดนี้กลายเป็นการปฏิบัติทางวิศวกรรมขนาดใหญ่ที่ใช้งานได้จริง

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

  • ชื่อบทความ: Decoupled DiLoCo for Resilient Distributed Pre-training
  • ที่อยู่บทความ: https://arxiv.org/pdf/2604.21428v1

ภูมิหลัง: ยิ่งใหญ่เท่าไหร่ ข้อผิดพลาดก็ยิ่งบ่อยขึ้น

เพื่อเข้าใจความสำคัญของงานนี้ ก่อนอื่นต้องเข้าใจปัญหาพื้นฐานของการฝึกอบรม AI สมัยใหม่

ทุกวันนี้ การฝึกอบรมโมเดลภาษาขนาดใหญ่ มักใช้วิธีการขนานแบบ SPMD (Single Program Multiple Data) กล่าวโดยง่าย เหมือนกับคนงานทุกคนในโรงงานต้องทำงานบนสายการผลิตพร้อมกัน — แต่ละคนทำงานในขั้นตอนของตัวเอง แต่ทุกคนต้องทำเสร็จพร้อมกันเพื่อก้าวไปยังขั้นตอนถัดไป หากจุดใดจุดหนึ่งมีปัญหา สายการผลิตทั้งหมดต้องหยุดรอ

ในขนาดเล็กนี่ไม่ใช่ปัญหา แต่เมื่อคลัสเตอร์ขยายไปถึงชิปหลายแสนหรือหลายล้านชิ้น ความน่าจะเป็นก็เริ่มเข้ามามีบทบาท

ในบทความมีการคำนวณโดยตรง: สมมติว่าชิปแต่ละตัวเสียโดยเฉลี่ยปีละครั้ง ซึ่งฟังดูน่าเชื่อถือแล้ว แต่ถ้าคลัสเตอร์มีชิป 2.4 ล้านตัว ระยะเวลาเฉลี่ยระหว่างความเสียหายของคลัสเตอร์ทั้งหมดจะลดลงเหลือไม่ถึงหนึ่งนาที ในขนาดนี้ ความเสียหายของฮาร์ดแวร์ไม่ใช่เรื่องบังเอิญอีกต่อไป แต่เป็นเรื่องปกติในกระบวนการฝึกอบรม

วิธีการรับมือในปัจจุบันคือ “การฝึกอบรมแบบยืดหยุ่น”: เมื่อตรวจพบว่าเครื่องใดเครื่องหนึ่งล่ม ก็ปรับการกำหนดค่าคลัสเตอร์ใหม่ และใช้เครื่องที่เหลือที่ยังดีอยู่ทำงานต่อ แต่กระบวนการปรับการกำหนดค่านี้ใช้เวลามาก ทำให้คลัสเตอร์ไม่สามารถคำนวณที่มีประสิทธิภาพได้ในระหว่างรอ

ข้อมูลจำลองในบทความแสดงให้เห็นว่า ในขนาด 2.4 ล้านชิป แม้จะมีกลไกยืดหยุ่น เวลาคำนวณที่มีประสิทธิภาพจริง (Goodput) ก็มีเพียง 40% — นั่นคือ 60% ของเวลาคลัสเตอร์อยู่ในสถานะรอหรือปรับการกำหนดค่า สิ้นเปลืองพลังการคำนวณ

ทำลายพันธนาการของ “การประสานจังหวะ”

แนวคิดหลักของ Decoupled DiLoCo คือการละทิ้งสมมติฐานที่ว่าเครื่องทั้งหมดต้องซิงโครไนซ์กัน

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

กรอบงานนี้แบ่งคลัสเตอร์ฝึกอบรมทั้งหมดออกเป็น “ผู้เรียนรู้” (Learner) อิสระหลายตัว ผู้เรียนรู้แต่ละตัวฝึกอบรมด้วยข้อมูลที่ได้รับแยกกัน โดยไม่ต้องรอผู้เรียนรู้อื่น เมื่อผู้เรียนรู้ตัวใดตัวหนึ่งขัดข้อง ผู้เรียนรู้ที่เหลือจะไม่รับรู้เลย และดำเนินการฝึกอบรมตามจังหวะของตนเองต่อไป เปรียบเสมือนการแยกห้องสอบขนาดใหญ่เป็นห้องสอบอิสระหลายห้อง หากเกิดเหตุเพลิงไหม้ในห้องหนึ่งและต้องอพยพ ก็ไม่ส่งผลกระทบต่อนักเรียนในห้องอื่นที่ยังคงทำข้อสอบต่อไป

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

แล้วผู้เรียนรู้ต่างๆ จะทำงานร่วมกันอย่างไรเพื่อให้ได้โมเดลเดียวกันในที่สุด?

ที่นี่มีการนำ “ตัวซิงโครไนซ์” (Syncer) ที่มีน้ำหนักเบาเข้ามา ตัวซิงโครไนซ์ทำงานบนทรัพยากร CPU ที่ค่อนข้างเสถียร มีหน้าที่รวบรวมการอัปเดตพารามิเตอร์จากผู้เรียนรู้แต่ละตัวเป็นระยะ ทำการรวมเข้าด้วยกัน แล้วส่งผลลัพธ์ที่รวมแล้วกลับไป

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

ประเด็นสำคัญคือ: ตัวซิงโครไนซ์ไม่จำเป็นต้องรอให้ผู้เรียนรู้ทั้งหมดพร้อมก่อนเริ่มรวม ตราบใดที่มีผู้เรียนรู้จำนวนเพียงพอ (เรียกว่า “จำนวนขั้นต่ำตามกฎ” หรือ Minimum Quorum) รายงานความคืบหน้า ตัวซิงโครไนซ์ก็สามารถเริ่มทำงานได้ ส่วนผู้เรียนรู้ที่ขัดข้องจะถูกข้ามไป และเมื่อฟื้นตัวก็จะตามมาทีหลัง

นอกจากนี้ เนื่องจากความเร็วในการคำนวณของผู้เรียนรู้อาจแตกต่างกัน (โดยเฉพาะเมื่อใช้ชิปรุ่นเก่าและใหม่ผสมกัน) ผู้เรียนรู้ที่เร็วกว่าจะประมวลผลข้อมูลในช่วงซิงค์ได้มากกว่าผู้ที่ช้ากว่า เพื่อหลีกเลี่ยงไม่ให้ผู้เรียนรู้ที่เร็วมี “หนึ่งเสียงเทียบหลายเสียง” ในการรวม ตัวซิงโครไนซ์จึงนำกลไกน้ำหนักแบบไดนามิกตามจำนวน token ที่ประมวลผลมาใช้ เพื่อให้ผลลัพธ์การรวมสะท้อนถึงการมีส่วนร่วมที่แท้จริงของผู้เรียนรู้แต่ละตัวอย่างยุติธรรม

ยังมีรายละเอียดอีกอย่างที่เรียกว่า “หน้าต่างผ่อนผันแบบปรับตัว” (Adaptive Grace Window): หลังจากถึงจำนวนขั้นต่ำตามกฎแล้ว ตัวซิงโครไนซ์จะไม่รวมทันที แต่จะรออีกเล็กน้อยเพื่อให้ผู้เรียนรู้มากขึ้นตามทันรอบการซิงค์นี้ ซึ่งจะช่วยเพิ่มคุณภาพของการรวมแต่ละครั้ง เวลารอนี้ถูกควบคุมอย่างระมัดระวังให้อยู่ในช่วงที่ไม่ส่งผลกระทบต่อความเร็วในการฝึกอบรมโดยรวม

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

รายละเอียดทางเทคนิคอีกอย่างคือ “การแบ่งเทนเซอร์อย่างสมดุล” (Balanced Tensor Fragmentation) พารามิเตอร์โมเดลจะไม่ถูกส่งเป็นชิ้นใหญ่ก้อนเดียว แต่ถูกแบ่งเป็นชิ้นเล็กๆ ที่มีขนาดใกล้เคียงกันหลายชิ้น ในแต่ละขั้นตอนจะส่งเพียงชิ้นเดียว ทำให้ภาระการสื่อสารกระจายอย่างสม่ำเสมอ หลีกเลี่ยงการส่งแบบ “พัลส์” ที่ใช้แบนด์วิดท์ขึ้นลงอย่างรุนแรง

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

ผลการทดลอง: เมื่ออัตราข้อผิดพลาดสูงมาก ประสิทธิภาพแทบไม่ลดลง

บทความใช้การทดลองจำนวนมากเพื่อตรวจสอบประสิทธิภาพที่แท้จริงของแนวทางนี้

ในด้าน Goodput (อัตราการส่งผ่านที่มีประสิทธิภาพ) การจำลองสถานการณ์ด้วยชิป 2.4 ล้านตัว โดยแต่ละตัวเสียปีละครั้ง (ในกรณีนี้ระยะห่างระหว่างความเสียหายของคลัสเตอร์ทั้งหมดน้อยกว่าหนึ่งนาที) Decoupled DiLoCo ที่ใช้ผู้เรียนรู้ 8 ตัว รักษา Goodput ไว้ที่ 88% ในขณะที่ภายใต้เงื่อนไขเดียวกัน แนวทางขนานข้อมูลแบบยืดหยุ่นแบบดั้งเดิมมี Goodput เพียง 58%

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

ในด้านคุณภาพโมเดล บทความเปรียบเทียบผลการฝึกอบรมโมเดลหนาแน่น 5 พันล้านพารามิเตอร์บน 1 ล้านล้าน token ไม่ว่าจะเป็นเกณฑ์มาตรฐานข้อความ (ARC, BoolQ, HellaSwag ฯลฯ) หรือเกณฑ์มาตรฐานภาพ (DocVQA, TextVQA ฯลฯ) คะแนนการประเมินปลายน้ำของ Decoupled DiLoCo แทบไม่แตกต่างจากการฝึกอบรมขนานข้อมูลแบบดั้งเดิม กล่าวคือ ความสามารถในการทนทานต่อข้อผิดพลาดเพิ่มขึ้นอย่างมาก แต่ไม่ได้แลกมากับคุณภาพโมเดล

Google Decoupled DiLoCo: ความก้าวหน้าใหม่ในการฝึกอบรมล่วงหน้าแบบยืดหยุ่น การฝึกอบรมแบบกระจายที่ทนทานต่อข้อผิดพลาดช่วยให้หยุดทำงานเป็นศูนย์

บทความยังตรวจสอบประสิทธิภาพของแนวทางนี้ในสถานการณ์ที่ใช้ชิปรุ่นเก่าผสม (TPUv5e และ TPUv5p) แม้ว่าผู้เรียนรู้ที่ช้าที่สุดจะช้ากว่าผู้เรียนรู้ที่เร็วที่สุดเกือบ 20% แต่ด้วยการผสมผสานระหว่างจำนวนขั้นต่ำตามกฎและหน้าต่างผ่อนผันแบบปรับตัว ระบบยังคงบรรลุคุณภาพโมเดลที่เทียบเท่ากับการฝึกอบรมแบบซิงโครนัสเต็มรูปแบบ ในขณะที่อัตราการใช้การคำนวณยังคงอยู่ที่ 100%

ในด้านการใช้แบนด์วิดท์ ตัวเลขนั้นน่าทึ่งมาก เพื่อให้ได้อัตราการใช้การคำนวณ 90% แนวทางขนานข้อมูลแบบดั้งเดิมในสถานการณ์ที่มีขั้นตอนการคำนวณ 1 วินาทีและศูนย์ข้อมูล 2 แห่ง ต้องใช้แบนด์วิดท์ประมาณ 104 Gbits/s ในขณะที่ Decoupled DiLoCo ต้องการเพียง 1.7 Gbits/s และเมื่อใช้การบีบอัด int4 ก็ลดลงเหลือ 0.43 Gbits/s ความต้องการแบนด์วิดท์ลดลงประมาณสองลำดับความสำคัญ

พื้นที่จินตนาการที่ใหญ่กว่า: การ “เก็บตก” พลังการคำนวณ

ความต้องการแบนด์วิดท์ต่ำนำมาซึ่งมูลค่าเพิ่มที่ไม่คาดคิด: สามารถ “เก็บตก” ทรัพยากรการคำนวณที่พร้อมใช้งานชั่วคราวได้ตลอดเวลา

การฝึกอบรมขนานข้อมูลแบบดั้งเดิมเมื่อต้องการเพิ่มเครื่องใหม่ ต้องส่งพารามิเตอร์โมเดลที่สมบูรณ์ในปัจจุบันไปก่อน กระบวนการนี้อาจใช้เวลามากของคลัสเตอร์ทั้งหมด ทำให้ประสิทธิภาพการฝึกอบรมลดลงอย่างมากทันทีที่เพิ่มเครื่องใหม่

Decoupled DiLoCo แตกต่างออกไป เมื่อผู้เรียนรู้ใหม่เข้าร่วม สามารถดึงสถานะโมเดลปัจจุบันจากผู้เรียนรู้ใกล้เคียงแบบอะซิงโครนัสก่อน ในระหว่างนี้ผู้เรียนรู้อื่นไม่ได้รับผลกระทบเลยและฝึกอบรมต่อไปตามปกติ

บทความทำการทดลอง: ในระหว่างการฝึกอบรม เพิ่มผู้เรียนรู้ชั่วคราวพิเศษแบบไดนามิก (จำลองสถานการณ์ที่พลังการคำนวณที่มีในตอนกลางวันเพิ่มขึ้น) ผลลัพธ์แสดงให้เห็นว่า ยิ่งเพิ่มพลังการคำนวณชั่วคราวมากเท่าไหร่ เวลาฝึกอบรมก็ยิ่งสั้นลง และคุณภาพโมเดลไม่ได้รับผลกระทบ ในขณะที่เกณฑ์มาตรฐานขนานข้อมูลภายใต้การตั้งค่าเดียวกัน พลังการคำนวณเพิ่มเติมต้องมากกว่าสองเท่าจึงจะเริ่มเห็นประโยชน์

นั่นหมายความว่า พลังการคำนวณที่กระจัดกระจายในภูมิภาคต่างๆ โซนเวลาต่างกัน และฮาร์ดแวร์ต่างรุ่นกัน ก็สามารถรวมเข้าไว้ในงานฝึกอบรมเดียวกันได้ แม้ว่าแบนด์วิดท์เครือข่ายระหว่างกันจะน้อยกว่าภายในศูนย์ข้อมูลทั่วไปหลายสิบเท่า

แนวคิดเก่า ในที่สุดก็รอเงื่อนไขทางวิศวกรรม

Jeff Dean เล่าในบทความปี 2012 ว่า ตอนนั้นพวกเขาคิดแล้วว่า: หากสามารถทนต่อความไม่สอดคล้องกันในระดับหนึ่งได้ การฝึกอบรมจะยืดหยุ่นมากขึ้นหรือไม่? แต่ด้วยข้อจำกัดด้านขนาดและเงื่อนไขทางวิศวกรรมในขณะนั้น แนวคิดนี้จึงไม่สามารถนำไปใช้ได้อย่างสมบูรณ์

สิบสี่ปีต่อมา เมื่อโมเดลขยายไปถึงหลายพันล้านพารามิเตอร์ และคลัสเตอร์ฝึกอบรมมีชิปหลายแสนหรือหลายล้านตัว ปัญหานี้ไม่ใช่แค่ปัญหาการวิจัยอีกต่อไป แต่เป็นปัญหาทางวิศวกรรมที่ “ต้องแก้ไข”

คำตอบที่ Decoupled DiLoCo ให้คือ: ละทิ้งความสอดคล้องกันอย่างเข้มงวดทั่วโลก ใช้ความอะซิงโครนัสและการกระจายอำนาจเพื่อแลกกับความพร้อมใช้งาน พร้อมกับลดการสูญเสียคุณภาพโมเดลให้แทบไม่เห็นผ่านการออกแบบอัลกอริทึมที่พิถีพิถัน

บทความสรุปว่า: เมื่อการฝึกอบรมก่อนการฝึกขยายไปยังคลัสเตอร์ข้ามภูมิภาค สภาพแวดล้อมที่ถูกจำกัดทั้งแบนด์วิดท์และความน่าเชื่อถือของฮาร์ดแวร์จะกลายเป็นเรื่องปกติมากขึ้น กระบวนทัศน์การฝึกอบรมที่ “ให้ความสำคัญกับความพร้อมใช้งาน” จะเปลี่ยนจาก “มีข้อได้เปรียบ” เป็น “จำเป็น”

ดูเหมือนว่าบทความนี้กำลังกำหนดนิยามใหม่ของโครงสร้างพื้นฐานสำหรับการฝึกอบรมโมเดลขนาดใหญ่พิเศษรุ่นต่อไป


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32048

Like (0)
Previous 2 days ago
Next 2 days ago

相关推荐