คำสำคัญ: ระบบระดับเวเฟอร์, การอนุมานโมเดลภาษาขนาดใหญ่, โฟลว์ข้อมูล FlatAttention, การสื่อสารแบบรวมบนชิป, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์
ด้วยการเติบโตอย่างรวดเร็วของความยาวลำดับในการอนุมานโมเดลภาษาขนาดใหญ่ (LLM) และความนิยมของสถาปัตยกรรมผู้เชี่ยวชาญผสม (MoE) ตัวดำเนินการความสนใจ (Attention) ได้กลายเป็นคอขวดหลักที่จำกัดปริมาณงานโดยรวมของระบบ วิธีการปรับปรุงแบบดั้งเดิมมักจำกัดอยู่ที่การปรับปรุงอัลกอริทึมหรือการอัปเกรดแบนด์วิดท์ฮาร์ดแวร์ในมิติเดียว

รูปที่ 1: (a) สัดส่วนการดำเนินการจุดลอยตัวของโมเดลภาษาขนาดใหญ่ในขั้นตอนการเติมข้อมูลล่วงหน้าและการถอดรหัส ข้อมูลแสดงให้เห็นว่าในโมเดล MoE สัดส่วนการคำนวณของกลไกความสนใจเพิ่มขึ้นอย่างมีนัยสำคัญตามขนาดโมเดล เช่น ในขั้นตอนการถอดรหัสของ DeepSeek-v3-671B มีสัดส่วนสูงถึง 71% ซึ่งยืนยันการมีอยู่ของ “คอขวดความสนใจ” (b) ขีดจำกัดประสิทธิภาพบนของ FlashAttention-3 (การเติมข้อมูลล่วงหน้า) และ FlashMLA (การถอดรหัส) ที่ประเมินด้วยความแม่นยำ FP16 บน GPU GH200 ของ NVIDIA ผลลัพธ์แสดงให้เห็นว่าการใช้งานความสนใจหลักในปัจจุบันมีอัตราการใช้ประโยชน์จากฮาร์ดแวร์เพียง 26% ถึง 64% ซึ่งบ่งชี้ว่าการปรับปรุงความสนใจบนสถาปัตยกรรม GPU ใกล้ถึงขีดจำกัดแล้ว ทั้งสองจุดนี้ร่วมกันแสดงให้เห็นว่าการก้าวข้ามคอขวดความสนใจในการอนุมาน LLM ต้องการสถาปัตยกรรมการแบ่งส่วน (Tile) แบบใหม่และการออกแบบร่วมกับโฟลว์ข้อมูลเฉพาะทาง
งานวิจัยล่าสุดเปิดเผยทิศทางสำคัญ: โดยการปรับปรุงร่วมกันอย่างลึกซึ้งระหว่างโฟลว์ข้อมูลและการสื่อสารแบบรวมบนชิป (Fabric Collectives) บนตัวเร่งความเร็วแบบหลายหน่วยประมวลผล (PE) ที่ใช้สถาปัตยกรรมการแบ่งส่วน (Tile) สามารถก้าวข้ามขีดจำกัดของการปรับปรุงแบบจุดเดียวได้

- FlatAttention: Dataflow and Fabric Collectives Co-Optimization for Large Attention-Based Model Inference on Tile-Based Accelerators
- https://arxiv.org/pdf/2604.02110
งานวิจัยนี้เสนอรูปแบบโฟลว์ข้อมูลสถาปัตยกรรมใหม่ชื่อ FlatAttention ในสถานการณ์ที่เน้นการคำนวณและเน้นการเข้าถึงหน่วยความจำ มันบรรลุอัตราการใช้ทรัพยากรเฉลี่ย 86% และ 78% ตามลำดับ ในการทดสอบมาตรฐาน ประสิทธิภาพของมันโดยเฉลี่ยสูงกว่าการใช้งานตัวดำเนินการ FlashAttention และ FlashMLA ที่ได้รับการปรับแต่งอย่างสูงสุดบน GPU GH200 ชั้นนำของ NVIDIA ด้วยอัตราเร่งเฉลี่ย 1.9 เท่า
ความสำเร็จที่ก้าวไกลกว่านั้นปรากฏในระบบระดับเวเฟอร์ ในระบบหลายชิประดับเวเฟอร์ที่รวมชิปตัวเร่งความเร็ว 64 ชิป (กำลังประมวลผลต่อชิป 1976 TFLOPS FP8) FlatAttention ช่วยให้โมเดล DeepSeek-v3-671B ทำการอนุมานการถอดรหัสแบบครบวงจร บรรลุปริมาณงานระบบสูงกว่าระบบเชิงพาณิชย์ที่ดีที่สุดในปัจจุบัน (คลัสเตอร์ที่ประกอบด้วย GPU H800 จำนวน 96 ตัว) ถึง 2.9 เท่า ในขณะที่ลดเวลาในการสร้างโทเค็นเอาต์พุตแต่ละตัว (TPOT) ลง 1.4 เท่า
บทความนี้จะวิเคราะห์กลไกนวัตกรรมหลักของ FlatAttention สำรวจว่ามันสามารถปรับโครงสร้างพื้นฐานฮาร์ดแวร์สำหรับการอนุมานโมเดลขนาดใหญ่ในอนาคตได้อย่างไร ผ่านการทำงานร่วมกันอย่างลึกซึ้งระหว่างโฟลว์ข้อมูลระดับล่างและการสื่อสารแบบรวมบนเครือข่ายบนชิป (NoC)
1. ปัญหาหลัก: ทำไมการปรับปรุง Attention แบบดั้งเดิมจึงล้มเหลวบนสถาปัตยกรรมหลาย Tile?
ก่อนจะพูดถึง FlatAttention ต้องเข้าใจปัญหาพื้นฐานที่สถาปัตยกรรมปัจจุบันเผชิญ
งานวิจัยจำนวนมากในยุคแรกมุ่งเน้นการปรับปรุงโฟลว์ข้อมูล Attention โดยมีเป้าหมายหลักคือกำจัดค่าใช้จ่ายสูงในการเข้าถึงหน่วยความจำนอกชิปที่เกิดจากการทำให้เป็นมาตรฐาน Softmax ในฐานะขั้นตอนอิสระ อุตสาหกรรมทั่วไปใช้โซลูชัน “การหลอมรวมตัวดำเนินการ” โดยหลอมรวมการดำเนินการหลักของ Attention ทำให้เทนเซอร์กลางอยู่ในหน่วยความจำบนชิป
อย่างไรก็ตาม งานก่อนหน้านี้ส่วนใหญ่เน้นที่ตัวเร่งความเร็วแบบ Tile เดี่ยว (หรือหน่วยประมวลผลสตรีมเดียว SM ในสถาปัตยกรรม GPU ของ NVIDIA) ตัวอย่างเช่น FlashAttention-2 ผ่านการแบ่งส่วน (Tiling) ที่ปรับปรุงแล้วและการแบ่งงานระหว่าง SMs บน GPU ทำให้บรรลุโฟลว์ข้อมูล Attention ที่หลอมรวมและเป็นผู้นำ

อัลกอริทึม 1: อัลกอริทึม FlashAttention-2 อัลกอริทึมนี้เป็นการใช้งานโฟลว์ข้อมูลความสนใจคลาสสิกบน GPU โดยโหลดเมทริกซ์ K, V เป็นบล็อกไปยังแคชบนชิป หลอมรวมการคูณเมทริกซ์และการคำนวณ Softmax เพื่อเพิ่มการนำข้อมูลกลับมาใช้ใหม่ และลดการเข้าถึงหน่วยความจำแบนด์วิดท์สูง (HBM) แต่การปรับปรุงจำกัดอยู่ภายในหน่วยประมวลผลเดียว (SM) ขาดการออกแบบการสื่อสารข้ามหน่วย เมื่อย้ายไปใช้สถาปัตยกรรมหลาย Tile แต่ละ Tile ประมวลผลข้อมูลอย่างอิสระ สูญเสียความเป็นไปได้ในการนำข้อมูลกลับมาใช้ใหม่ข้าม Tile อย่างสมบูรณ์ และขนาดบล็อกถูกจำกัดโดยความจุแคชของ Tile เดี่ยว ไม่สามารถลดความซับซ้อนของ I/O ได้อีก นี่คือข้อบกพร่องที่เน้นย้ำถึงความจำเป็นในการออกแบบโฟลว์ข้อมูลที่ทำงานร่วมกันข้าม Tile ภายใต้สถาปัตยกรรม Tile และเป็นหนึ่งในแรงจูงใจหลักที่นำไปสู่การเสนอ FlatAttention
ใน GPU คลาสสิกก่อนสถาปัตยกรรม Hopper การสื่อสารระหว่าง SMs ต้องผ่านหน่วยความจำส่วนกลาง ซึ่งขัดขวางการหลอมรวมตัวดำเนินการข้าม SM อย่างรุนแรง ทำให้ต้นทุนการสื่อสารระหว่าง SMs บนชิปสูงมาก ดังนั้น FlashAttention-2 ถูกบังคับให้ใช้กลยุทธ์โฟลว์ข้อมูลแบบ “ขนานอย่างยิ่ง” โดยจงใจหลีกเลี่ยงการสื่อสารที่มีต้นทุนสูงนี้
- จนกระทั่งสถาปัตยกรรม Hopper ล่าสุด NVIDIA จึงได้แนะนำกลไกการสื่อสาร SM ถึง SM ที่มีประสิทธิภาพภายในกลุ่มประมวลผล GPU (GPC) ซึ่งสร้างเงื่อนไขสำหรับการดำเนินการสื่อสารแบบรวมบนชิประหว่าง SMs ภายใน GPC ได้อย่างมีประสิทธิภาพ
- แม้ว่าจะมีงานวิจัยล่าสุดพยายามใช้การสื่อสารแบบรวมบนชิปของ Hopper เพื่อขยายขอบเขตการหลอมรวมเลเยอร์สำหรับงานโหลด LLM แต่ก็จำกัดอยู่ที่สายโซ่ GEMM และเลเยอร์ FFN เป็นหลัก และไม่ได้แตะต้องตัวดำเนินการ Attention ที่มีรูปแบบการคำนวณที่ซับซ้อนกว่า

รูปที่ 2: (a) เทมเพลตสถาปัตยกรรมที่ใช้โครงสร้างอาร์เรย์ของหน่วยประมวลผล (Tile) (b) การเปรียบเทียบระหว่างการมัลติแคสต์แบบแถวที่ใช้การสื่อสารแบบรวมที่รองรับโดยฮาร์ดแวร์บนชิป กับการใช้งานการสื่อสารแบบรวมสองแบบที่ใช้ซอฟต์แวร์ (ต้นไม้ซอฟต์แวร์, อนุกรมซอฟต์แวร์) (c) ระบบหลายชิประดับเวเฟอร์ที่ประกอบด้วยตัวเร่งความเร็วแบบหน่วยประมวลผล Tile จำนวนมาก ใช้โทโพโลยีการเชื่อมต่อระหว่างชิปแบบตาข่ายสองมิติ
รูปนี้แสดงพื้นฐานฮาร์ดแวร์ของการศึกษา รูป 2a สถาปัตยกรรม Tile ที่รวมหน่วยคำนวณ หน่วยเก็บข้อมูล และหน่วยสื่อสาร เป็นรูปแบบการออกแบบหลักของตัวเร่งความเร็วการอนุมานโมเดลขนาดใหญ่ในปัจจุบัน รูป 2b แสดงว่าการสื่อสารแบบรวมที่ฮาร์ดแวร์รองรับโดยธรรมชาติ (การมัลติแคสต์แบบแถว) มีประสิทธิภาพเหนือกว่าการใช้งานซอฟต์แวร์อย่างมีนัยสำคัญ ซึ่งให้พื้นฐานสำหรับการใช้ไพรมิทีฟการสื่อสารฮาร์ดแวร์เพื่อการปรับปรุง รูป 2c ระบบหลายชิประดับเวเฟอร์มีเป้าหมายเพื่อตอบสนองความต้องการความจุหน่วยความจำและขนาดการคำนวณของโมเดลพารามิเตอร์พันล้าน เพื่อแก้ปัญหาข้อจำกัดทรัพยากรของชิปเดี่ยว ทั้งหมดนี้ร่วมกันประกอบเป็นสถานการณ์ฮาร์ดแวร์ที่การปรับปรุงในภายหลังมุ่งเน้น
ในสถาปัตยกรรมหลาย Tile และระบบระดับเวเฟอร์ หากการออกแบบโฟลว์ข้อมูลขาดการทำงานร่วมกันอย่างลึกซึ้งกับการสื่อสารแบบรวมฮาร์ดแวร์พื้นฐาน การหลอมรวมตัวดำเนินการแบบง่ายจะยากที่จะเอาชนะ “กำแพงการเชื่อมต่อ” ที่ประกอบด้วยความล่าช้าในการสื่อสารและอัตราการใช้แบนด์วิดท์
2. นวัตกรรมหลัก: การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์ของ FlatAttention
เพื่อตอบสนองความท้าทายข้างต้น บทความนี้เสนอ FlatAttention นี่คือโฟลว์ข้อมูลที่ออกแบบร่วมกับไพรมิทีฟการสื่อสารแบบรวมระดับชิปอย่างลึกซึ้ง ออกแบบมาเพื่อดำเนินการแปรผันของความสนใจหลายแบบในโมเดลภาษาขนาดใหญ่บนตัวเร่งความเร็วแบบหลายหน่วยประมวลผล (PE) ที่ใช้ Tile รวมถึงความสนใจหลายหัว (MHA), ความสนใจแบบสอบถามกลุ่ม (GQA) และความสนใจแฝงหลายหัว (MLA)

รูปที่ 3: (a) ภาพรวมสถาปัตยกรรมโมเดลภาษาขนาดใหญ่หลัก และแผนภาพหลักการของ (b) ความสนใจหลายหัวในขั้นตอนการเติมข้อมูลล่วงหน้า, (c) ความสนใจหลายหัวในขั้นตอนการถอดรหัสแบบถดถอย, (d) ความสนใจแบบสอบถามกลุ่มในขั้นตอนการถอดรหัสแบบถดถอย
รูปนี้ชี้แจงลักษณะการคำนวณของความสนใจแปรผันต่างๆ MHA มีรูปแบบการคำนวณที่แตกต่างกันอย่างมีนัยสำคัญระหว่างขั้นตอนการเติมข้อมูลล่วงหน้าและการถอดรหัส; GQA ในขั้นตอนการถอดรหัส ผ่านการแชร์แคช KV แบบกลุ่ม จะเปลี่ยนการดำเนินการคูณเมทริกซ์-เวกเตอร์กลับเป็นการคูณเมทริกซ์ที่มีประสิทธิภาพมากขึ้น ลักษณะเหล่านี้เป็นกุญแจสำคัญที่ทำให้ FlatAttention สามารถปรับใช้กับความสนใจแปรผันต่างๆ ได้ การออกแบบต้องปรับกลยุทธ์การจัดกลุ่มและแบ่งส่วน Tile ตามความแตกต่างของรูปแบบการคำนวณ เช่น ขั้นตอนการถอดรหัสของ GQA สามารถใช้การจัดกลุ่มลำดับคำถามที่ยาวกว่าได้ สถาปัตยกรรมผสม MoE และ MLA ที่แสดงในรูป 3a ก็อธิบายเหตุผลที่บทความนี้เลือก DeepSeek-v3 เป็นกรณีศึกษาการตรวจสอบแบบครบวงจร

รูปที่ 4: (a) นิยามพารามิเตอร์ของ FlatAttention (b) โฟลว์ข้อมูล FlatAttention โดยละเอียด (c) วิธีการจัดตาราง FlatAttention แบบธรรมดา (d) วิธีการจัดตาราง FlatAttention แบบอะซิงโครนัสที่ปรับปรุงแล้ว
รูปนี้เป็นการแสดงโฟลว์ข้อมูลหลักของ FlatAttention รูป 4a นิยามพารามิเตอร์กลุ่มเป็นพื้นฐานสำหรับการประมวลผลร่วมกันของหลาย Tile รูป 4b แยกกระบวนการหลัก “โหลด-มัลติแคสต์-คำนวณ-รีดิวซ์-เก็บ” ซึ่งสะท้อนแนวคิดการออกแบบการนำข้อมูลกลับมาใช้ใหม่ข้าม Tile การเปรียบเทียบระหว่างรูป 4c และ 4d เน้นย้ำคุณค่าของการจัดตารางแบบอะซิงโครนัส: ในการจัดตารางแบบธรรมดา การเคลื่อนย้ายข้อมูลและการคำนวณ Softmax ทำให้หน่วยคำนวณเมทริกซ์ไม่ได้ใช้งาน ในขณะที่การจัดตารางแบบอะซิงโครนัสผ่านการทำงานพร้อมกันของสองงาน ทำให้หน่วยคำนวณเมทริกซ์ทำงานใกล้เต็มกำลัง การปรับปรุงนี้เป็นกุญแจสำคัญที่ทำให้ FlatAttention บรรลุอัตราการใช้ฮาร์ดแวร์สูงถึง 92.3% และยืนยันความสำคัญของการทำงานร่วมกันระหว่างการจัดตารางโฟลว์ข้อมูลและลักษณะฮาร์ดแวร์
2.1 การใช้ทรัพยากรขั้นสูงสุดและกลยุทธ์การแบ่งส่วน
FlatAttention มุ่งสู่ความแม่นยำสูงสุดในการจัดตารางทรัพยากร เป้าหมายหลักคือการควบคุมปริมาณการใช้หน่วยความจำ L1 อย่างเคร่งครัดภายในงบประมาณ 384 KiB ในขณะเดียวกันก็เพิ่มอัตราการใช้ประโยชน์ของเครื่องยนต์คูณเมทริกซ์พื้นฐาน (RedMulE) ให้สูงสุด โดยตั้งเป้าไว้ที่มากกว่า 95%

รูปที่ 11: (a) ความสัมพันธ์ระหว่างอัตราการใช้ประโยชน์ของเครื่องยนต์ RedMulE กับขนาดบล็อก (b) ความสัมพันธ์ระหว่างการใช้หน่วยความจำท้องถิ่น L1 ของโฟลว์ข้อมูล FlatAttention แบบอะซิงโครนัสกับขนาดบล็อก
รูปนี้ให้พื้นฐานเชิงปริมาณสำหรับการกำหนดขนาดบล็อก Tile เดี่ยวที่เหมาะสมที่สุด รูป 11a แสดงว่าเมื่อขนาดบล็อกเป็น 128 อัตราการใช้ประโยชน์ของเครื่องยนต์เมทริกซ์เกิน 95% การเพิ่มขนาดบล็อกต่อไม่ได้เพิ่มอัตราการใช้ประโยชน์มากนัก รูป 11b แสดงว่าการใช้หน่วยความจำ L1 ที่ขนาดบล็อกนี้ไม่เกินงบประมาณฮาร์ดแวร์ 384 KiB ดังนั้น ขนาดบล็อก 128 จึงเป็นทางออกที่ดีที่สุดที่สมดุลระหว่างอัตราการใช้ประโยชน์การคำนวณและทรัพยากรหน่วยความจำ เป็นเกณฑ์สำหรับการขยายขนาดกลุ่มในภายหลัง
ทีมวิจัยพบผ่านการสำรวจพื้นที่การออกแบบอย่างละเอียดว่า สำหรับการกำหนดค่าหลาย PE แบบ Tile ที่ประเมิน กลยุทธ์การกำหนดค่าการขยายขนาดบล็อกและกลุ่มที่เหมาะสมที่สุด ทำให้ระบบสามารถผลักดันอัตราการใช้ประโยชน์ของ RedMulE ไปสู่จุดสูงสุดที่ 98% โดยไม่เกินขีดจำกัดความจุ L1

รูป
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28894
