DeepSeek เปิดตัว Mega MoE: ปรับโครงสร้างพื้นฐานใหม่เชื่อมต่อ MoE แบบ Pipeline แบบถาวร เพิ่มอัตราการใช้ GPU พุ่งสูง

2 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 14 views

เมื่อบ่ายวานนี้ DeepSeek ได้อัปเดตสำคัญครั้งหนึ่งให้กับฐานโค้ดโอเพนซอร์ส DeepGEMM ของตน แกนหลักของการอัปเดตครั้งนี้คือการแนะนำโครงการใหม่ชื่อ Mega MoE

Mega MoE มีการนำเสนอโดย Chenggang Zhao และคณะจากทีมโครงสร้างพื้นฐานของ DeepSeek โดยโค้ดที่เกี่ยวข้องได้ถูกส่งขึ้นไปยัง GitHub แล้ว (ลิงก์: https://github.com/deepseek-ai/DeepGEMM/pull/304)

Mega MoE คืออะไร?

กระบวนการคำนวณของโมเดล MoE (Mixture of Experts) แบบดั้งเดิมมักจะถูกแยกย่อยออกเป็นหลายขั้นตอนอิสระ (เช่น การกระจาย การแปลงเชิงเส้น การกระตุ้น การรวม) โดยแต่ละขั้นตอนต้องเรียกใช้เคอร์เนล (kernel) อิสระและมีการสื่อสารข้อมูลระหว่าง GPU ทำให้กระบวนการคำนวณหยุดชะงักบ่อยครั้งและอัตราการใช้ประโยชน์จาก GPU ต่ำ

แนวคิดหลักของ Mega MoE คือการปรับโครงสร้างขั้นพื้นฐานของกระบวนการนี้ใหม่ทั้งหมด โดยการรวมขั้นตอนต่างๆ ที่เดิมเป็นอิสระจากกัน เช่น การกระจาย (dispatch) การแปลงเชิงเส้นสองชั้น การกระตุ้น SwiGLU การรวม (combine) เข้าไว้ใน mega-kernel เดียวกันที่รวมเป็นหนึ่งเดียว ที่สำคัญกว่านั้นคือ มันทำให้เกิดการทับซ้อนระหว่างการคำนวณและการสื่อสาร: ทำให้การคำนวณของ Tensor Core และการถ่ายโอนข้อมูลผ่าน NVLink เกิดขึ้นพร้อมกัน จึงหลีกเลี่ยงการที่ GPU จะต้องว่างเปล่ารอข้อมูล

ผลกระทบโดยตรงจากการออกแบบนี้คืออัตราการใช้ประโยชน์จาก GPU ที่เพิ่มขึ้นอย่างเห็นได้ชัด โดยเฉพาะในสถานการณ์ MoE ขนาดใหญ่ที่ใช้การ์ดหลายใบ ซึ่งให้ผลคล้ายกับการเปลี่ยนโหมด “การส่งต่ออิฐ” เป็น “สายพานลำเลียงที่ทำงานต่อเนื่อง”

ทิศทางการปรับปรุงในระดับลึกยิ่งขึ้น

การปรับปรุงของ DeepSeek ครั้งนี้ไม่จำกัดอยู่แค่การรวมเคอร์เนล โครงการยังได้สำรวจการคำนวณด้วยความแม่นยำผสม FP8 × FP4 และได้แนะนำตัวดัชนี (indexer) แบบ FP4 สำหรับ MQA logits โดยมีเป้าหมายเพื่อบีบขีดจำกัดของพลังการคำนวณให้มากขึ้นอีก เมื่อรวมกับการปรับโครงสร้าง GEMM ใหม่และการเร่งความเร็วด้วย JIT (การคอมไพล์ทันที) เป้าหมายโดยรวมคือการผลักดันประสิทธิภาพการทำงานของ MoE ไปสู่ขีดสุด

DeepSeek ยังได้อัปเดตคำอธิบายไลบรารี DeepGEMM โดยกำหนดตำแหน่งให้เป็นไลบรารีเคอร์เนล Tensor Core ประสิทธิภาพสูงแบบรวมศูนย์ ที่รวบรวมไพรมิทีฟการคำนวณที่สำคัญ:

DeepGEMM เป็นไลบรารีเคอร์เนล Tensor Core ประสิทธิภาพสูงแบบรวมศูนย์ ที่รวบรวมไพรมิทีฟการคำนวณที่สำคัญสำหรับโมเดลภาษาขนาดใหญ่สมัยใหม่ไว้ด้วยกัน รวมถึง GEMM (FP8, FP4, BF16), MoE ที่รวมขั้นตอนและมีการทับซ้อนของการสื่อสาร (Mega MoE), การให้คะแนน MQA สำหรับ lightning indexer, HyperConnection (HC) ฯลฯ ทั้งหมดอยู่ในฐานโค้ด CUDA ที่เป็นหนึ่งเดียวและสอดคล้องกัน เคอร์เนลทั้งหมดถูกคอมไพล์ในเวลารันไทม์ผ่านโมดูลการคอมไพล์ทันที (JIT) ขนาดเบา โดยไม่จำเป็นต้องมีการคอมไพล์ CUDA ในระหว่างขั้นตอนการติดตั้ง

สรุป: ความพยายามปรับโครงสร้างในระดับโครงสร้างพื้นฐาน

การอัปเดตครั้งนี้สามารถมองได้ว่าเป็นความพยายามปรับโครงสร้างในระดับโครงสร้างพื้นฐาน เป้าหมายคือการเปลี่ยน MoE จากสถาปัตยกรรมที่มีประสิทธิภาพในทางทฤษฎีแต่ซับซ้อนในทางวิศวกรรม ให้กลายเป็นโซลูชันที่ใช้งานได้จริงในขนาดใหญ่และมีประสิทธิภาพสูง Mega MoE อาจเป็นตัวต่อชิ้นสำคัญชิ้นแรกในชุดการปรับปรุงนี้

สิ่งที่น่าสังเกตคือ DeepSeek ระบุว่า Mega MoE ยังอยู่ระหว่างการพัฒนา และข้อมูลประสิทธิภาพจะประกาศในภายหลัง นี่บ่งชี้ว่าการปรับปรุงลึกขนาดนี้จำเป็นต้องมีการปรับแต่งซ้ำแล้วซ้ำเล่าภายใต้ขนาดและโหลดที่แตกต่างกัน การเปิดเผยโค้ดโอเพนซอร์สครั้งนี้ ดูคล้ายกับการชี้ทิศทางการแก้ไขปัญหาทางเทคนิคที่ชัดเจนให้กับชุมชนมากกว่า