
เมื่อพูดถึง “โซนิค” ไม่ว่าจะเป็นเม่นสีน้ำเงินในเกมหรือแนวคิดเรื่องการเคลื่อนที่ด้วยความเร็วสูง สิ่งแรกที่ผู้คนนึกถึงคือ “ความเร็ว” และ “ความเร็ว” ก็เป็นเป้าหมายหลักในการปรับปรุงโมเดล AI และแอปพลิเคชันต่างๆ ในปัจจุบันเช่นกัน
เมื่อไม่นานมานี้ ทีมวิจัยร่วมที่นำโดย Tri Dao (ผู้เขียนคนแรกของ FlashAttention) จากมหาวิทยาลัยพรินซ์ตัน และ Ion Stoica จากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ ได้เปิดตัวระบบ “ความเร็วสูงพิเศษ” ที่ชื่อว่า SonicMoE

ตามคำอธิบายอย่างเป็นทางการ SonicMoE สามารถทำงานที่ปริมาณงานสูงสุดบน GPU Blackwell ของ NVIDIA โดยประสิทธิภาพการคำนวณนั้นเหนือกว่า DeepGEMM ซึ่ง DeepSeek เคยเปิดเผยเป็นโอเพนซอร์สและสร้างความฮือฮา
ที่น่าสนใจคือ เมื่อเร็วๆ นี้ DeepSeek ได้เปิดเผยเทคโนโลยีใหม่ในไลบรารี DeepGEMM ของตนเช่นกัน นั่นคือ Mega MoE (MoE ขนาดยักษ์) จากชื่อก็เห็นได้ชัดว่านี่แสดงถึงทิศทางทางเทคโนโลยีที่แตกต่างอย่างสิ้นเชิงจาก SonicMoE (MoE ความเร็วเสียง) เราหวังว่าจะได้เห็นการเปรียบเทียบโดยตรงระหว่างสองแนวทาง “ใหญ่” และ “เร็ว” ในอนาคต
ต่อไป เราจะทำความเข้าใจเนื้อหาหลักของ SonicMoE อย่างย่อจากบล็อกเทคโนโลยีอย่างเป็นทางการ

- ที่อยู่บล็อก: https://tridao.me/blog/2026/sonicmoe-blackwell/
- คลังโค้ด: https://github.com/Dao-AILab/sonic-moe
- ที่อยู่เอกสาร: https://arxiv.org/abs/2512.14080
MoE และข้อบกพร่องที่อาจเกิดขึ้น
เพื่อทำความเข้าใจว่า SonicMoE แก้ปัญหาอะไร ก่อนอื่นต้องรู้จักสถาปัตยกรรมที่ครอบงำ AI ชั้นนำในปัจจุบัน นั่นคือ โมเดลผู้เชี่ยวชาญผสม (Mixture of Experts, MoE)

ลองนึกภาพโรงพยาบาล: เมื่อพบผู้ป่วยแต่ละคน โรงพยาบาลจะไม่ส่งทุกแผนกออกมาพร้อมกัน แต่ให้แพทย์ทั่วไปวินิจฉัยก่อน แล้วจึงส่งต่อให้ผู้เชี่ยวชาญที่เหมาะสมที่สุด ตรรกะของสถาปัตยกรรม MoE ก็คล้ายกัน: ภายในโมเดลประกอบด้วยเครือข่ายย่อย “ผู้เชี่ยวชาญ” จำนวนมาก และข้อมูลแต่ละส่วน (token หรือที่เข้าใจได้ว่าเป็นตัวอักษรหรือคำ) จะถูกส่งไปยังผู้เชี่ยวชาญเพียงไม่กี่คนเท่านั้น ไม่ใช่ผ่านพารามิเตอร์ทั้งหมด
ข้อดีของวิธีนี้ชัดเจน: ใช้การคำนวณค่อนข้างน้อยเพื่อรองรับโมเดลที่มีพารามิเตอร์ขนาดใหญ่
โมเดลเด่นๆ ที่เปิดตัวในปี 2024 อย่าง Mixtral 8x22B และล่าสุด DeepSeek V3.2, Kimi K2.5, Qwen3 ฯลฯ ล้วนเป็นผู้สนับสนุนสถาปัตยกรรม MoE อย่างแข็งขัน ตามกฎการปรับขนาดโมเดล ยิ่งผู้เชี่ยวชาญมี “ความละเอียด” มากเท่าไร (หมายถึงผู้เชี่ยวชาญแต่ละตัวมีขนาดเล็กลงและมีจำนวนมากขึ้น) โมเดลก็มักจะมีประสิทธิภาพดีขึ้นเมื่อใช้การคำนวณเท่ากัน ดังนั้น ในเวลาเพียงสองปี ความละเอียดของผู้เชี่ยวชาญ MoE เพิ่มขึ้นถึง 9 เท่า ในขณะที่สัดส่วนของผู้เชี่ยวชาญที่ถูกกระตุ้นในแต่ละครั้งลดลงเหลือหนึ่งในสิบสอง
อย่างไรก็ตาม ผลเสียก็ตามมาเช่นกัน


เมื่อจำนวนผู้เชี่ยวชาญเพิ่มขึ้นและความละเอียดละเอียดขึ้น การฝึกโมเดลประเภทนี้จะพบกับกำแพงที่สูงขึ้นสองประการ:
กำแพงแรกคือหน่วยความจำวิดีโอ ในการฝึกโครงข่ายประสาทเทียม ผลลัพธ์ระหว่างกลางของการแพร่กระจายไปข้างหน้าต้องถูกบันทึกไว้เพื่อใช้คำนวณเกรเดียนต์ในการแพร่กระจายย้อนกลับ สำหรับ MoE แบบละเอียด ขนาดของผลลัพธ์ระหว่างกลางเหล่านี้ (ค่าแอคติเวชัน) เป็นสัดส่วนโดยตรงกับความละเอียดของผู้เชี่ยวชาญ ยิ่งผู้เชี่ยวชาญละเอียดมากเท่าไร การใช้หน่วยความจำก็ยิ่งมากขึ้น จนในที่สุดจะเข้าใกล้ขีดจำกัดทางกายภาพของหน่วยความจำ GPU
กำแพงที่สองคือแบนด์วิดท์หน่วยความจำ ประสิทธิภาพของ GPU ขึ้นอยู่กับสองมิติ: พลังการคำนวณ (จำนวนการดำเนินการต่อวินาที) และแบนด์วิดท์ (ปริมาณข้อมูลที่สามารถเคลื่อนย้ายต่อวินาที) เมื่อผู้เชี่ยวชาญละเอียดพอ ข้อมูลที่ผู้เชี่ยวชาญแต่ละตัวประมวลผลมีน้อยเกินไป พลังการคำนวณของ GPU จะไม่ถูกใช้เต็มที่ และเวลาส่วนใหญ่จะสูญเสียไปกับการ “เคลื่อนย้าย” ข้อมูลจากหน่วยความจำ นี่คือสิ่งที่เรียกว่า “คอขวดของหน่วยความจำ” สำหรับ MoE แบบละเอียดของ Qwen3 ทั่วไป ความเข้มข้นของการเข้าถึงหน่วยความจำต่อหน่วยการคำนวณสูงกว่าโมเดลทั่วไปที่มีพารามิเตอร์เท่ากันถึง 12 เท่า
เครื่องมือฝึกแบบโอเพนซอร์สที่มีอยู่ (เช่น ScatterMoE และ MoMoE) มีข้อบกพร่องที่ชัดเจนสำหรับปัญหาทั้งสองนี้ โดยเฉพาะอย่างยิ่งเมื่อโมเดลมีความละเอียดมากขึ้น ความแตกต่างก็ยิ่งเด่นชัดขึ้น และ SonicMoE ก็ถูกสร้างขึ้นมาเพื่อแก้ปัญหาเหล่านี้

นวัตกรรมหลัก: การออกแบบใหม่ในระดับอัลกอริทึม
ข้อมูลเชิงลึกสำคัญของ SonicMoE ดูเหมือนง่าย แต่ต้องใช้ความคิดเชิงระบบอย่างลึกซึ้งจึงจะคิดได้: รากของปัญหาคือกรอบการฝึก MoE ที่มีอยู่ “ใจกว้าง” เกินไปในการจัดเก็บผลลัพธ์ระหว่างกลาง พวกมันเขียนข้อมูลชั่วคราวจำนวนมากเกินไปลงในหน่วยความจำวิดีโอ ทั้งที่ข้อมูลเหล่านี้ไม่จำเป็นต้องเก็บ
วิธีการแบบดั้งเดิมเมื่อดำเนินการแพร่กระจายไปข้างหน้าและย้อนกลับของ MoE จะเขียนเทนเซอร์ระหว่างกลาง (ข้อมูลระหว่างกลางในรูปแบบเมทริกซ์) ลงในหน่วยความจำแบนด์วิดท์สูง (HBM) ของ GPU ระหว่างแต่ละขั้นตอนการคำนวณ เปรียบเสมือนพ่อครัวที่หลังจากทำขั้นตอนกลางแต่ละขั้นตอนเสร็จ ก็จะนำวัตถุดิบใส่จานแล้วแช่ตู้เย็น แล้วค่อยหยิบออกมาในขั้นตอนต่อไป การเข้าถึงบ่อยครั้งเช่นนี้เป็นการสิ้นเปลืองเวลาอย่างมาก

การออกแบบอัลกอริทึมใหม่ของ SonicMoE เปลี่ยนแปลงกระบวนการนี้อย่างสิ้นเชิง โดยมีสองประเด็นหลัก:
ประการแรก การแยกหน่วยความจำแอคติเวชันออกจากความละเอียดของผู้เชี่ยวชาญ
ในการฝึกแบบแพร่กระจายย้อนกลับ SonicMoE หลีกเลี่ยงการแคชเทนเซอร์ระหว่างกลางใดๆ ที่เป็นสัดส่วนกับขนาดของผู้เชี่ยวชาญ โดยการออกแบบลำดับการคำนวณใหม่ โดยเฉพาะอย่างยิ่ง มันกำจัดปริมาณระหว่างกลางสำคัญที่ต้องแคช เช่น “เอาต์พุตของการฉายภาพลง” โดยการจัดลำดับการหดตัวของการคูณเมทริกซ์ใหม่ แทนที่จะเก็บผลลัพธ์ระหว่างกลาง มันจะได้เกรเดียนต์ที่ต้องการโดยตรงผ่านเส้นทางการคำนวณที่ชาญฉลาดเมื่อจำเป็น ทำให้การใช้หน่วยความจำแอคติเวชันต่อชั้นของ SonicMoE คงที่เมื่อความละเอียดของผู้เชี่ยวชาญเพิ่มขึ้นอย่างมาก เทียบเท่ากับโมเดลหนาแน่นที่มีพารามิเตอร์แอคติเวชันเท่ากัน การปรับปรุงนี้ไม่ต้องเสียค่าใช้จ่ายในการคำนวณเมทริกซ์ซ้ำเพิ่มเติม และตอบคำถามที่อุตสาหกรรมเคยคิดว่า “ไม่สามารถมีทั้งสองอย่างพร้อมกัน” ได้โดยตรง
ประการที่สอง การหลอมรวมโอเปอเรเตอร์ที่คำนึงถึง I/O
SonicMoE หลอมรวมการดำเนินการที่เดิมกระจายอยู่ในเคอร์เนล GPU หลายตัวเข้าด้วยกัน ตัวอย่างเช่น เทคนิค “Gather fusion” ช่วยให้การดำเนินการเคลื่อนย้ายข้อมูลเสร็จสมบูรณ์พร้อมกันระหว่างการดำเนินการเคอร์เนลการคูณเมทริกซ์ แทนที่จะเป็นขั้นตอนแยกต่างหากที่จัดเรียงข้อมูลใหม่ก่อนแล้วจึงส่งให้การคูณเมทริกซ์ ซึ่งไม่เพียงประหยัดการอ่านเขียนหน่วยความจำครั้งเดียว แต่ยังใช้ประโยชน์จากตำแหน่งของแคช L2 ของ GPU ทำให้อัตราการเข้าถึงแคชเพิ่มขึ้นจากประมาณ 66% เป็นประมาณ 75% ซึ่งช่วยลดความถี่ในการเข้าถึง HBM ที่ช้าลง นอกจากนี้ การคำนวณฟังก์ชันแอคติเวชัน SwiGLU ยังถูกรวมเข้ากับช่วงท้าย (epilogue) ของการคูณเมทริกซ์ โดยเสร็จสมบูรณ์ในขณะที่ข้อมูลยังอยู่ในรีจิสเตอร์ โดยไม่ต้องอ่านเขียนหน่วยความจำเพิ่มเติม
ในเคอร์เนลการแพร่กระจายย้อนกลับที่สำคัญที่สุด (dH kernel) SonicMoE ยังใช้ประโยชน์จากคุณสมบัติการทำงานแบบอะซิงโครนัสของ GPU เพื่อซ้อนทับเวลารอการเคลื่อนย้ายข้อมูลกับการดำเนินการคูณเมทริกซ์

ผลการทดสอบจริงแสดงให้เห็นว่า แม้ปริมาณข้อมูล HBM ของเคอร์เนลนี้จะเพิ่มขึ้น 24% แต่อัตราการใช้ Tensor Core ลดลงเพียงประมาณ 10% เท่านั้น ซึ่งหมายความว่าค่าใช้จ่ายของหน่วยความจำถูก “ดูดซับ” โดยพลังการคำนวณเกือบทั้งหมด

ชั้นนามธรรมซอฟต์แวร์ QuACK: รับประกันว่านวัตกรรมสามารถถ่ายทอดข้ามรุ่นได้
จุดเด่นทางวิศวกรรมอีกประการของ SonicMoE ที่มักถูกมองข้ามคือ ทีมวิจัยได้พัฒนาชั้นนามธรรมซอฟต์แวร์แบบครบวงจรที่ชื่อว่า QuACK ซึ่งรวมเคอร์เนลการคูณเมทริกซ์ MoE ทั้งหมดให้เป็นโครงสร้างร่วมของ “ลูปหลัก + epilogue ที่ปรับแต่งได้”

เคอร์เนล SonicMoE สองตัวที่ใช้ QuACK ด้านซ้าย: แผนผังการทำงานของเคอร์เนล ตรงกลาง: คลาสผสม epilogue ของ QuACK ซึ่งแต่ละเคอร์เนลเขียน epi_visit_subtile ใหม่ (dH 88 บรรทัด, การฉายภาพไปข้างหน้าบน 21 บรรทัด) ด้านขวา: การเรียกใช้เคอร์เนลแบบง่ายของ SonicMoE
ความชาญฉลาดของการออกแบบนี้คือ เมื่อ GPU อัปเกรดจากสถาปัตยกรรม Hopper รุ่นก่อน (H100) เป็นสถาปัตยกรรม Blackwell ล่าสุด (B200/B300) การปรับให้เหมาะสมเฉพาะฮาร์ดแวร์จำเป็นต้องแก้ไขเฉพาะจุดในไม่กี่แห่งเท่านั้น โดยตรรกะอัลกอริทึมหลักไม่ต้องเขียนใหม่
สาเหตุที่ทีมของ Tri Dao และ Ion Stoica สามารถย้าย SonicMoE ไปยัง GPU Blackwell เรือธงรุ่นล่าสุดของ NVIDIA และบรรลุปริมาณงานสูงสุดได้อย่างรวดเร็ว ส่วนใหญ่เป็นเพราะสถาปัตยกรรมซอฟต์แวร์ที่มองการณ์ไกลนี้
ผลการทดลอง
ทีมวิจัยได้ทำการประเมินอย่างครอบคลุมบน GPU B300 ล่าสุดของ NVIDIA โดยใช้การกำหนดค่าโมเดล MoE โอเพนซอร์สจริง 6 แบบเป็นเกณฑ์ ครอบคลุมขนาดพารามิเตอร์ตั้งแต่ 7B ถึง 685B รวมถึงสถาปัตยกรรม MoE ที่ได้รับความสนใจมากที่สุดในปัจจุบัน เช่น OLMoE, Qwen3-235B, DeepSeek V3.2

TFLOPS ไปข้างหน้า (ซ้าย) และย้อนกลับ (ขวา) ของการกำหนดค่า MoE จริง 6 แบบบน B300 จากซ้ายไปขวา: OLMoE-1B-7B-0125, gpt-oss-20b, Kimi-Linear-48B-A3B-Base, Qwen3-Next-80B-A3B-Thinking, Qwen3-235B-A22B-Thinking-2507 และ DeepSeek-V3.2-Exp ตัวอย่างอย่างเป็นทางการของ Triton ไม่รองรับการแพร่กระจายย้อนกลับ และการแพร่กระจายไปข้างหน้าของ Qwen3-Next-80B ก็ไม่รองรับ K=10

การแยกส่วนเวลาทำงานของ SonicMoE และโมเดลพื้นฐานบน B300 สำหรับ MoE ขนาด 7B OLMoE (T=32768, d=2048, n=1024, E=64, K=8)
ผลลัพธ์มีความสำคัญอย่างมาก:
- เมื่อเทียบกับเกณฑ์ DeepGEMM ที่พัฒนาโดย DeepSeek และปรับให้เหมาะสมสำหรับ Blackwell GPU โดยเฉพาะ SonicMoE สูงกว่าโดยเฉลี่ย 54% ในการแพร่กระจายไปข้างหน้า และ 35% ในการแพร่กระจายย้อนกลับ ในขณะที่ DeepGEMM เองก็เป็นที่ยอมรับในอุตสาหกรรมว่าเป็นการใช้งานที่มีประสิทธิภาพสูง
- เมื่อเทียบกับตัวอย่าง MoE อย่างเป็นทางการของ Triton SonicMoE เร็วกว่า 21% ในการแพร่กระจายไปข้างหน้า
- เมื่อเทียบกับกรอบการฝึกที่ใช้กันอย่างแพร่หลายในแวดวงวิชาการและอุตสาหกรรม เช่น ScatterMoE และ MoMoE ข้อได้เปรียบด้านความเร็วของ SonicMoE มักจะสูงถึงเกือบสองเท่าหรือมากกว่า
จากการวิเคราะห์เวลาทำงานในระดับเคอร์เนล การเร่งความเร็วของ SonicMoE มาจากสองส่วนหลัก: ประการแรก Gather fusion ขจัดเคอร์เนลการเคลื่อนย้ายข้อมูลอิสระ ซึ่งเป็นแหล่งการเร่งความเร็วหลัก ประการที่สอง การใช้งานการคูณเมทริกซ์แบบกลุ่มที่เร็วขึ้น (ด้วยเทคโนโลยี CLC scheduler และ 2CTA MMA เฉพาะของ Blackwell) มีส่วนช่วยเพิ่มขึ้นอีกประมาณ 10%
ในด้านหน่วยความจำแอคติเวชัน เมื่อความละเอียดของผู้เชี่ยวชาญเพิ่มขึ้นจากยุค Mixtral ถึงระดับ Kimi K2.5 หน่วยความจำแอคติเวชันต่อชั้นของวิธีการดั้งเดิมจะขยายตัวเป็นเส้นตรง ในขณะที่การใช้งานของ SonicMoE ยังคงที่ ซึ่งหมายถึงพื้นที่ปฏิบัติการที่มากขึ้นสำหรับการฝึกโมเดลที่มีความละเอียดมากขึ้นในอนาคตด้วยหน่วยความจำวิดีโอที่จำกัด
บทสรุป
SonicMoE ไม่เพียงแต่เร็วมาก แต่ยังมีความหมายที่ลึกซึ้งยิ่งขึ้น: เมื่อความก้าวหน้าทางฮาร์ดแวร์ถูกจำกัดด้วยกฎทางกายภาพและช้าลง นวัตกรรมในระดับซอฟต์แวร์กำลังมีบทบาทมากขึ้นในฐานะ “ผู้สร้างความเท่าเทียม”
ชื่อบทความของ SonicMoE คือ “พิมพ์เขียว MoE แบบละเอียดที่มีประสิทธิภาพด้านฮาร์ดแวร์และปรับขนาดได้ทางซอฟต์แวร์” คำว่า “พิมพ์เขียว” นี้อาจเป็นสัญญาณที่ทีมวิจัยต้องการสื่อ: นี่ไม่ใช่แค่เครื่องมือ แต่เป็นปรัชญาการออกแบบที่สามารถทำซ้ำและสืบทอดได้
ปัจจุบัน SonicMoE ได้เปิดเป็นโอเพนซอร์สบน GitHub และ PyPI รองรับ H100 และ B200/B300 ล่าสุด และมีแผนในอนาคตที่จะขยายไปสู่การขนานผู้เชี่ยวชาญ การรองรับความแม่นยำ MXFP8/FP4 และ GPU Rubin รุ่นถัดไปของ NVIDIA
ในยุคที่หน่วยความจำและพลังการคำนวณหายากขึ้นทุกวัน นวัตกรรมนี้มีคุณค่าอย่างยิ่ง เพราะมันช่วยประหยัดต้นทุนที่แท้จริงให้กับระบบนิเวศ AI ทั้งหมด
คุณชอบ Mega MoE ของ DeepSeek หรือ SonicMoE ที่แนะนำในวันนี้มากกว่ากัน?
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33134
