xAI ของอีลอน มัสก์ มีอัตราการใช้ทรัพยากร GPU เพียงประมาณ 11% รายงานที่เกี่ยวข้องชี้ว่าการปรับปรุงซอฟต์แวร์ AI Stack ยังไม่เป็นที่น่าพอใจ ล่าสุดรายงานของ The Information ได้รับความสนใจอย่างกว้างขวาง

ปัจจุบัน xAI ดำเนินการ GPU ของ NVIDIA ประมาณ 550,000 ตัวในคลัสเตอร์ศูนย์ข้อมูล Memphis และ Colossus ครอบคลุมทั้งรุ่น H100 และ H200 โดยบางส่วนใช้ระบบระบายความร้อนด้วยของเหลว แม้ GPU เหล่านี้จะเป็นรุ่นก่อนหน้า (ก่อนซีรีส์ Blackwell ล่าสุด) แต่ขนาดของมันก็น่าทึ่งมาก
ด้วย GPU จำนวนมหาศาลเช่นนี้ อัตราการใช้ประโยชน์ของโมเดล (MFU) ของ xAI กลับอยู่ที่เพียง 11% หากเปรียบเทียบแบบไม่ตรงนัก ใน GPU 500,000 ตัวที่ติดตั้งไว้ พลังการคำนวณที่ใช้ได้จริงเทียบเท่าเพียงประมาณ 60,000 ตัวเท่านั้น อะไรทำให้ประสิทธิภาพต่ำเช่นนี้?
ประการแรก สำหรับสภาพแวดล้อมการปรับใช้ขนาดเล็ก (เช่น 1,000-10,000 GPU) การประสานงานระหว่างโหนดหลายตัวมักไม่เป็นปัญหา แต่เมื่อขนาดเซิร์ฟเวอร์ขยายใหญ่ขึ้น จำเป็นต้องรวม GPU หลายแสนตัว เวลาว่างของอุปกรณ์จะสะสมอย่างรวดเร็ว ทำให้อัตราการใช้โดยรวมลดลงอย่างรุนแรง ปัญหาความไม่สอดคล้องกันภายในซอฟต์แวร์ Stack ที่ตามมา กำลังถูกเปิดเผยในการทำงานจริงของ xAI
ในคลัสเตอร์ขนาดใหญ่ ความเร็วการคำนวณของชิป GPU นั้นค่อนข้างเร็ว แต่จุดคอขวดอยู่ที่ความเร็วในการอ่าน-เขียนข้อมูลของหน่วยความจำแบนด์วิดท์สูง (HBM) และค่าใช้จ่ายในการสื่อสารเครือข่ายระหว่างเซิร์ฟเวอร์หลายพันเครื่อง หากมีความล่าช้าเล็กน้อยหรือความแออัดของเครือข่ายในการส่งข้อมูล GPU ทั้งคลัสเตอร์จะถูกบังคับให้ “รอ” การโหลดข้อมูล
อีกด้านหนึ่ง การฝึกโมเดล AI มักเป็นแบบไม่ต่อเนื่อง GPU ทำงานเต็มที่เมื่อคำนวณจริง แต่เมื่อนักวิจัยวิเคราะห์ผลการฝึก ปรับพารามิเตอร์ หรือจัดการไปป์ไลน์ข้อมูล อุปกรณ์จำนวนมากจะอยู่ในสถานะว่าง (Idle)
แม้ 11% จะเป็นตัวเลขที่ต่ำอย่างเห็นได้ชัด แต่รายงานของ The Information ยังเผยให้เห็นกฎที่ไม่ได้เขียนไว้ในอุตสาหกรรม AI: การสิ้นเปลืองพลังการคำนวณเป็นเรื่องปกติ นักวิจัยบางคนในบริษัทใหญ่ เพื่อหลีกเลี่ยงการถูกผู้บริหารตำหนิ หรือกลัวว่าโควตา GPU ที่ว่างจะถูกทีมอื่นแย่งไป ถึงกับจงใจรันงานฝึกที่ไร้ความหมายซ้ำๆ เพื่อ “ปั่น” ข้อมูลอัตราการใช้
ต้องบอกว่าการทำเช่นนี้ก็เพื่อรักษาโควตา GPU ของทีมตัวเอง
แน่นอนว่านี่ไม่ใช่ปัญหาของ xAI เพียงผู้เดียว แต่เป็นปัญหาด้านโครงสร้างที่พบได้ทั่วไปในอุตสาหกรรม AI ทั้งหมด—การทำให้โครงสร้างพื้นฐาน AI ทำงานได้อย่างมีประสิทธิภาพในขนาดมหึมาเช่นนี้เป็นความท้าทายที่ยากยิ่ง

ทักษะการปรับปรุงที่จำเป็นสำหรับการดำเนินโครงสร้างพื้นฐาน AI คลาวด์ครอบคลุมข้อมูล อัลกอริทึม โมเดล การคำนวณ เคอร์เนล ปฏิสัมพันธ์ (มนุษย์-AI-โลก ระหว่างเอเจนต์) และการปรับปรุงโดยรวม ซึ่งมีความยากสูงในทางวิศวกรรม
ยักษ์ใหญ่ด้านเทคโนโลยีบางรายเน้นการปรับปรุง Stack โครงสร้างพื้นฐานขนาดใหญ่ และสามารถบรรลุอัตราการใช้มากกว่า 40% Meta และ Google เป็นตัวอย่างที่ดี โดยมีอัตราการใช้ GPU สูงถึง 43% และ 46% ตามลำดับ
อุปสรรคที่ xAI เผชิญพิสูจน์ให้เห็นว่าในการแข่งขันอาวุธ AI ปัจจุบัน “การซื้อ GPU” เป็นเพียงขั้นตอนแรก การใช้ให้ดีต่างหากคือกุญแจสำคัญ ขนาดฮาร์ดแวร์เกินความสามารถในการจัดตารางเวลาของสถาปัตยกรรมซอฟต์แวร์ที่มีอยู่
อย่างไรก็ตาม xAI กำลังดำเนินการแก้ไขปัญหานี้ และตั้งเป้าหมายอัตราการใช้ที่ 50% แม้ยังไม่มีกำหนดเวลาที่แน่ชัด แต่การปรับปรุงหลักจะเน้นที่โครงสร้างพื้นฐานและซอฟต์แวร์ Stack เมื่อภาระงานในอนาคตค่อยๆ ย้ายไปยังแพลตฟอร์มฮาร์ดแวร์ที่ออกแบบมาเพื่อขับเคลื่อนความต้องการ “Agentic AI” xAI มีแนวโน้มสูงที่จะให้บริการเช่าคลัสเตอร์ GPU ขนาดใหญ่ของตน
อีลอน มัสก์ยังแสวงหาการเปลี่ยนแปลง โดยเดิมพันในโครงการ “TeraFab” ที่พัฒนาพลังการคำนวณเอง: ด้านหนึ่ง เขากำลังผลักดันชิปที่พัฒนาขึ้นเองหลายรุ่น ให้รวมอยู่ใน “ตระกูลชิป AI” ของ xAI; อีกด้านหนึ่ง มัสก์หวังใช้เทคโนโลยีกระบวนการ 14A ของ Intel เพื่อสร้างโซลูชันล้ำสมัยสำหรับ xAI, SpaceX และธุรกิจอื่นๆ ที่เกี่ยวข้องในอนาคต
อุปสรรคของ xAI เตือนผู้ตามทุกราย: ช่วงครึ่งหลังของการแข่งขัน AI อาจไม่ใช่การแข่งขันว่าใครซื้อการ์ดจอได้มากกว่ากันอีกต่อไป
เนื้อหาอ้างอิง:
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33382
