3D ซ้อนทับ + การทำงานร่วมกันแบบฟูลสแต็ก: DeepStack ทำให้ปริมาณการอนุมานของ LLM เพิ่มขึ้นถึง 9.5 เท่าได้อย่างไร?

2 hours ago • การอนุมานโมเดลขนาดใหญ่ • 9 views

ผลลัพธ์หลักของ DeepStack คือการผสานคุณสมบัติพื้นฐานของหน่วยความจำแบบซ้อน 3 มิติเข้ากับกลยุทธ์แบบขนานเต็มรูปแบบอย่างลึกซึ้งตั้งแต่ขั้นตอนการออกแบบช่วงต้น ส่งผลให้ปริมาณงานอนุมานเพิ่มขึ้นสูงถึง 9.5 เท่า

ผลงานหลักของเฟรมเวิร์กนี้คือชุดระเบียบวิธีการสำรวจพื้นที่การออกแบบ (DSE) แบบฟูลสแต็กที่มีทั้งความแม่นยำสูงและประสิทธิภาพสูง DeepStack เป็นครั้งแรกที่รวมข้อจำกัดของกฎของลิตเติ้ล โมเดลแบนด์วิดท์ที่รับรู้ธุรกรรม การวิเคราะห์ความขัดแย้งของ Bank การตอบสนอง DVFS ด้านพลังงานความร้อน กลยุทธ์แบบขนานทั้งเจ็ดประเภท การสรุปเครือข่ายแบบสองเฟส และโมเดลการทับซ้อนของการคำนวณ-การสื่อสารระดับ Tile เข้าไว้ในลูปอัตโนมัติแบบครบวงจร

รูปที่ 1 เปรียบเทียบสถาปัตยกรรมแบบแพคเกจ 2.5 มิติแบบดั้งเดิมกับสถาปัตยกรรมแบบซ้อน 3 มิติแบบใหม่ โซลูชัน 2.5 มิติอาศัยการเชื่อมต่อระหว่างกันผ่านอินเทอร์โพเซอร์ เผชิญกับปัญหาคอขวดด้านแบนด์วิดท์และพื้นที่ PHY ที่ใหญ่ ในขณะที่โซลูชัน 3 มิติใช้เทคโนโลยี TSV และการเชื่อมแบบไฮบริดเพื่อเชื่อมต่อ DRAM กับไดชิปคำนวณโดยตรง บทความเน้นย้ำว่าสถาปัตยกรรม 3 มิติเป็นเส้นทางฮาร์ดแวร์สำคัญในการแก้ปัญหาคอขวดด้านหน่วยความจำของการอนุมาน LLM และเป็นรากฐานของการสร้างแบบจำลองของ DeepStack คุณสมบัติแบนด์วิดท์สูงของมันปูทางไปสู่การอนุมานโมเดลขนาดใหญ่แบบกระจาย แต่ก็นำมาซึ่งความท้าทายใหม่ๆ เช่น การจัดการความร้อนและการสร้างแบบจำลองหน่วยความจำแบบละเอียด

จากโซลูชันการออกแบบที่มีศักยภาพประมาณ 10^30 รายการ DeepStack สามารถสำรวจพื้นที่การออกแบบอันกว้างใหญ่ได้สำเร็จด้วยความช่วยเหลือของกลยุทธ์การตัดแต่งแบบลำดับชั้นและการค้นหาที่มีประสิทธิภาพ การสร้างแบบจำลองเครือข่ายของมันมีความเร็วเพิ่มขึ้นสูงสุด 100,000 เท่าเมื่อเทียบกับซิมูเลเตอร์แบบดั้งเดิม ซึ่งพิสูจน์ให้เห็นว่าวิธีการสร้างแบบจำลองที่ขับเคลื่อนด้วยข้อจำกัดทางพีชคณิตสามารถเพิ่มประสิทธิภาพ DSE ได้อย่างมาก ในขณะที่ยังคงความแม่นยำ ข้อสรุปที่ขัดกับสัญชาตญาณ เช่น “ขนาดแบตช์กำหนดชะตากรรมของสถาปัตยกรรม” ที่การวิจัยเปิดเผยนั้น ให้การสนับสนุนข้อมูลที่มั่นคงสำหรับการสร้างโครงสร้างพื้นฐานของศูนย์ประมวลผลรุ่นต่อไป

เมื่อพารามิเตอร์ของโมเดลขนาดใหญ่พุ่งสูงถึงระดับล้านล้าน การซ้อน DRAM ในแนวตั้งบนแกนประมวลผลลอจิกผ่านเทคโนโลยีการเชื่อมแบบไฮบริดและซิลิคอนเวีย (TSV) ได้กลายเป็นโซลูชันหลักในการฝ่า “กำแพงหน่วยความจำ” อย่างไรก็ตาม สิ่งนี้นำมาซึ่งปัญหาการออกแบบครั้งใหญ่: สถาปัตยกรรมฮาร์ดแวร์ โทโพโลยีการเชื่อมต่อ 3 มิติ กลยุทธ์แบบขนานแบบกระจาย และขีดจำกัดพลังงานความร้อน ตัวแปรเหล่านี้ไม่ได้เป็นตัวเลือกที่ไม่ต่อเนื่องกันอีกต่อไป แต่เป็น “พื้นที่การออกแบบที่ไม่มีที่สิ้นสุด” (มีจุดกำหนดค่าสูงถึง 10^30 จุด) ที่เชื่อมโยงกันอย่างลึกซึ้ง ซิมูเลเตอร์แบบดั้งเดิม (เช่น ASTRA-sim ระดับ NS-3) พังทลายลงเมื่อเผชิญกับพื้นที่ขนาดใหญ่เช่นนี้ การจำลองเพียงครั้งเดียวอาจใช้เวลานานหลายชั่วโมง

ข้อมูลเชิงลึกหลักของ DeepStack คือ: แทนที่จะแสวงหาความแม่นยำในการจำลองทางกายภาพ 100% ควรจับแก่นแท้ทางคณิตศาสตร์ของคอขวดทางกายภาพ มันจับข้อจำกัดของแคช “กฎของลิตเติ้ล” ที่เป็นเอกลักษณ์ของชิปแบบซ้อน 3 มิติ การเสื่อมของแบนด์วิดท์ระดับธุรกรรม และความขัดแย้งระดับ Bank ได้อย่างแม่นยำ

รูปที่ 4 แสดงภาพรวมของเฟรมเวิร์ก DSE ของ DeepStack ตั้งแต่การป้อนกราฟการคำนวณ LLM การตรวจสอบการกำหนดค่าฮาร์ดแวร์ ไปจนถึงการสร้างกลยุทธ์แบบขนาน การปรับแต่งอัตโนมัติ การสร้างแบบจำลองระดับ Tile และสุดท้ายคือการรายงานผลลัพธ์ประสิทธิภาพ กระบวนการทั้งหมดถูกนำเสนออย่างสมบูรณ์ เฟรมเวิร์กนี้รวมโมดูลการสร้างแบบจำลองหลักสี่โมดูล ได้แก่ พื้นที่ พลังงานความร้อน เครือข่าย และการทับซ้อนของการคำนวณ-การสื่อสาร สามารถสำรวจจุดออกแบบ 10^30 จุดได้อย่างมีประสิทธิภาพ และแก้ปัญหาความซับซ้อนของการออกแบบร่วมซอฟต์แวร์-ฮาร์ดแวร์ของตัวเร่งความเร็ว 3 มิติแบบกระจายได้อย่างมีประสิทธิภาพ

ด้วยการนำ “การสรุปเครือข่ายแบบสองเฟส” และ “การสร้างแบบจำลองการทับซ้อนของการคำนวณ-การสื่อสารระดับ Tile” มาใช้ DeepStack บรรลุความเร็วในการค้นหาที่เพิ่มขึ้นสูงถึง 100,000 เท่า ในขณะที่รักษาความคลาดเคลื่อนเฉลี่ยไว้เพียง 2.12% (เทียบกับแบ็กเอนด์ NS-3) แม้เมื่อเปรียบเทียบกับข้อมูลการวัดจริงของ vLLM บน GPU 8×B200 ความคลาดเคลื่อนก็อยู่ที่เพียง 12.18%

ในที่สุด บนโมเดลอย่าง DeepSeek-V3 ด้วยการปรับให้เหมาะสมร่วมกันแบบฟูลสแต็ก DeepStack บรรลุปริมาณงานที่เพิ่มขึ้นสะสม 9.5 เท่า เมื่อเทียบกับโซลูชันพื้นฐานที่รองรับเฉพาะ TP/PP/DP นอกจากนี้ยังเปิดเผยกฎเหล็กที่ขัดกับสามัญสำนึก: ในการออกแบบแบบซ้อน 3 มิติ อิทธิพลของขนาดแบตช์ต่อการสร้างสถาปัตยกรรมนั้นมีมากกว่าความแตกต่างระหว่าง Prefill และ Decode อย่างมาก

คำนำ: จุดจบของการคลำช้าง: เมื่อการซ้อน 3 มิติพบกับ “การหยั่งรู้ฟูลสแต็ก”

“เมื่อ LLM พัฒนาไปสู่พารามิเตอร์หลายแสนล้านหรือหลายล้านล้าน การอนุมานแบบกระจายได้กลายเป็นสิ่งจำเป็นสำหรับบริการ AI การออกแบบร่วมข้ามสแต็กมีความสำคัญมากขึ้นเรื่อยๆ ในการเพิ่มประสิทธิภาพ AI เราจึงเสนอ DeepStack ซึ่งเป็นเฟรมเวิร์กสำหรับการสำรวจพื้นที่การออกแบบร่วมระบบ-ฮาร์ดแวร์ในช่วงต้นสำหรับระบบ AI แบบซ้อน 3 มิติแบบกระจาย”

ในช่วงไม่กี่ปีที่ผ่านมา ไม่ว่าจะเป็น GPT-4, DeepSeek-V3 หรือ Llama-3 อัตราการขยายตัวของพารามิเตอร์โมเดลนั้นเกินกว่าการเติบโตของพลังการประมวลผลของชิปตัวเดียว เมื่อความยาวของ Prompt พุ่งจาก 4K ไปสู่ 128K หรือแม้กระทั่ง 1M ปัญหาการระเบิดของหน่วยความจำที่เกิดจาก KV Cache ทำให้แพคเกจ 2.5 มิติแบบดั้งเดิม (เช่น โซลูชัน HBM) รับมือไม่ไหว

การซ้อน 3 มิติ ซึ่งก็คือการซ้อนหน่วยความจำโดยตรงบนแกนประมวลผล ช่วยลดระยะทางทางกายภาพและเพิ่มแบนด์วิดท์อย่างมาก ดูเหมือนจะเป็นยาวิเศษ อย่างไรก็ตาม ผู้เขียน DeepStack พบว่าเครื่องมือทางวิชาการที่มีอยู่ในปัจจุบันล้วนใช้การไม่ได้เมื่อต้องรับมือกับการเชื่อมโยงระหว่าง “ฟิสิกส์ระดับจุลภาค” และ “การกระจายในระดับมหภาค” ของการซ้อน 3 มิติ บางตัวละเลยการลดลงของแบนด์วิดท์ของ DRAM ภายใต้ขนาดธุรกรรมที่แตกต่างกัน บางตัวรองรับเฉพาะการขนานแบบเก่าแก่สามประเภทคือ Tensor/Data/Pipeline และบางตัวก็ใช้พลังการประมวลผลหมดไปกับการจำลองเครือข่ายแบบกระจาย

รูปที่ 3: ภายใต้การกำหนดค่า STPS เฉพาะ การกระจายจำนวนของชุดกลยุทธ์แบบขนานที่แตกต่างกัน แสดงให้เห็นความแตกต่างอย่างมากของประสิทธิภาพ รูปนี้เผยให้เห็นว่าแม้จะเป็นโมเดลเดียวกัน กลยุทธ์แบบขนานที่แตกต่างกันก็ทำให้ประสิทธิภาพผันผวนอย่างมีนัยสำคัญ และสัดส่วนของโซลูชันที่ให้ประสิทธิภาพสูงจริงๆ นั้นน้อยมาก บทความชี้ให้เห็นว่าเฟรมเวิร์กแบบดั้งเดิมรองรับเพียงสามวิธีขนานคือ TP, PP และ DP ซึ่งไม่เพียงพอที่จะครอบคลุมพื้นที่การออกแบบทั้งหมด ส่งผลให้สูญเสียประสิทธิภาพสูงสุดถึง 5 เท่า ในทางตรงกันข้าม DeepStack ขยายกลยุทธ์แบบขนานเป็นเจ็ดประเภท สามารถสำรวจพื้นที่การออกแบบได้อย่างสมบูรณ์ และขจัดความเข้าใจผิดเกี่ยวกับการออกแบบสถาปัตยกรรมชิปที่เกิดจากการขาดกลยุทธ์แบบขนานโดยสิ้นเชิง

ภารกิจหลักของบทความนี้คือการทำลายข้อจำกัดด้านความรู้ความเข้าใจแบบ “คลำช้าง” นี้

เฟรมเวิร์ก DeepStack ด้วยวิธีการสร้างแบบจำลองแบบลำดับชั้น เป็นครั้งแรกที่สามารถเชื่อมโยงความหมายของหน่วยความจำระดับจุลภาคของฮาร์ดแวร์ 3 มิติ (เช่น ความขัดแย้งในการเปิดใช้งาน Bank คุณสมบัติแบนด์วิดท์ที่ไวต่อขนาดธุรกรรม) เข้ากับการจัดตารางเวลาแบบขนานในระดับมหภาคของระบบ (ครอบคลุมการผสมผสานอัตโนมัติของกลยุทธ์แบบขนานทั้ง 7 ประเภท) ได้อย่างลึกซึ้ง มันไม่ได้เป็นเพียงแค่ซิมูเลเตอร์แบบเร่งความเร็ว แต่ใช้ “มุมมองการออกแบบฟูลสแต็กที่อุณหภูมิต่ำ” เพื่อเปิดเผยประเด็นสำคัญดังต่อไปนี้:

เมื่อคุณเพิ่มชั้น DRAM อย่างต่อเนื่องเพื่อเพิ่มแบนด์วิดท์ ทำไมคุณถึงชนขอบเขตของ “กฎของลิตเติ้ล” ทำให้แบนด์วิดท์ที่มีประสิทธิภาพลดลงแทนที่จะเพิ่มขึ้น?
เมื่อถอดรหัสงานชุดใหญ่ ทำไมความร้อนถึงกลายเป็นนักฆ่าที่มองไม่เห็นซึ่งบีบคอปริมาณงาน?

คุณค่าที่แท้จริงของ DeepStack คือ ก่อนที่ชิปจะได้รับการออกแบบเสร็จสมบูรณ์ มันสามารถคาดการณ์ขีดจำกัดทางกายภาพเหล่านี้ด้วยความเที่ยงตรงสูง เพื่อค้นหาเส้นทางสถาปัตยกรรมที่เหมาะสมที่สุดจากชุดค่าผสมขนาดใหญ่ที่มีศูนย์ถึง 14 ตัว

unsetunsetหนึ่ง: ทะลุหมอก: ทำไมการซ้อน 3 มิติจึงไม่ใช่แค่ “การต่อบล็อก”? unsetunset

1.1 ไม่ใช่แค่ตำนานแบนด์วิดท์: เสียงเตือนจากกฎของลิตเติ้ล

“งานวิจัยก่อนหน้านี้ส่วนใหญ่ล้มเหลวในการพิจารณาข้อจำกัดของกฎของลิตเติ้ล ซึ่งเป็นปัญหาสำคัญในการสร้างแบบจำลองหน่วยความจำ 3 มิติที่มีแบนด์วิดท์สูงมาก” ทีม DeepStack ชี้ให้เห็นอย่างชัดเจนว่าการแสวงหาแบนด์วิดท์สูงสุดตามทฤษฎีเพียงอย่างเดียวนั้นเปรียบเสมือนการสร้างทางหลวงที่กว้างไม่มีที่สิ้นสุด แต่กลับตั้งด่านเก็บค่าผ่านทางเพียงช่องทางเดียวที่ทางเข้า

ในโลกอุดมคติของการซ้อน 3 มิติ เทคโนโลยี TSV และการเชื่อมแบบไฮบริดนำแบนด์วิดท์แนวตั้งมหาศาลมาสู่ชิป ตัวอย่างเช่น ในสถานการณ์ที่กำหนดในบทความ แบนด์วิดท์ของ DRAM 3 มิติแบบซ้อน 4 ชั้นนั้นสูงถึง 13.1 TB/s ซึ่งมากกว่า HBM3 ในพื้นที่เท่ากัน อย่างไรก็ตาม DeepStack ชี้ให้เห็นกฎเหล็กทางกายภาพที่สถาปนิกส่วนใหญ่มองข้าม นั่นคือกฎของลิตเติ้ล สูตรของมันเรียบง่ายมาก: แบนด์วิดท์ที่มีประสิทธิภาพ ≤ ขนาดแคช / ความหน่วง

นั่นหมายความว่า ถึงแม้ DRAM จะมีแบนด์วิดท์ตามทฤษฎี 10TB/s ถ้าแคชบนชิปไม่ใหญ่พอที่จะเก็บ “ข้อมูลระหว่างทาง” ได้มากพอที่จะครอบคลุมความหน่วงในการเข้าถึง DRAM แล้ว แบนด์วิดท์ 10TB/s นี้ก็จะไม่สามารถใช้ประโยชน์ได้อย่างเต็มที่ GPU NVIDIA B200 เพื่อให้ได้อัตราการใช้แบนด์วิดท์ DDR ถึง 90% แต่ละบล็อกเธรดต้องการหน่วยความจำที่ใช้ร่วมกันมากกว่า 40 KiB ในขณะที่ในการซ้อน 3 มิติ ความหนาแน่นของแบนด์วิดท์นั้นสูงกว่า DDR หลายสิบเท่า เมื่อคำนวณตามสัดส่วนแล้ว แคชบนชิปที่ต้องการจะมีขนาดใหญ่จนไม่สามารถยอมรับได้ในแง่ของพื้นที่

DeepStack บังคับให้สถาปนิกเผชิญหน้ากับความเป็นจริงด้วยการสร้างแบบจำลองความสัมพันธ์ที่แข็งแกร่งระหว่างแบนด์วิดท์ที่มีประสิทธิภาพ ขนาดแคช และขนาดธุรกรรม: ภายใต้พื้นที่จำกัดทั้งหมด ควรสร้างแคชขนาดใหญ่เพื่อใช้แบนด์วิดท์ให้เต็มที่ หรือประหยัดพื้นที่เพื่อเพิ่มหน่วยประมวลผล? สิ่งนี้ไม่ได้ขึ้นอยู่กับการตัดสินโดยสัญชาตญาณอีกต่อไป แต่เป็นการตัดสินใจโดยแบบจำลองทางคณิตศาสตร์

1.2 ป่าดงดิบระดับจุลภาคของ DRAM: การแย่งชิงการเปิดใช้งาน Bank และการเสื่อมสภาพระดับธุรกรรม

การซ้อน 3 มิติมักจะละทิ้งวิธีการสลับ Bank หน่วยความจำแบบดั้งเดิม และหันมาใช้การเชื่อมต่อแนวตั้งโดยตรง สิ่งนี้นำมาซึ่งแบนด์วิดท์ที่ยอดเยี่ยม แต่ก็ทำให้ตัวควบคุมหน่วยความจำต้องเผชิญกับความจริงอันโหดร้ายของความขัดแย้งของ Bank

เพื่อใช้ประโยชน์จาก TSV (Through-Silicon Via, ซิลิคอนเวียทะลุผ่าน เป็นเทคโนโลยีฮาร์ดแวร์หลักของการซ้อนชิป 3 มิติ โดยการกัดรูพรุนโลหะขนาดเล็กที่ทะลุผ่านชิปซิลิคอนในแนวตั้งเพื่อเชื่อมต่อชิปชั้นบนและล่างโดยตรง) ให้เกิดประโยชน์สูงสุด สถาปัตยกรรม 3 มิติที่ DeepStack มุ่งเน้นมักจะเชื่อมต่อ Bank โดยตรงกับแกนประมวลผลลอจิก โดยไม่ต้องพึ่งพาตัวควบคุมหน่วยความจำในการจัดตารางการสลับที่ซับซ้อนเบื้องหลังเพื่อปกปิดความหน่วงของการเปิดใช้งานแถวและการชาร์จล่วงหน้า สิ่งนี้ก่อให้เกิด “ความไวต่อขนาดธุรกรรม” ที่เป็นเอกลักษณ์ รูปที่ 2 ในบทความแสดงให้เห็นสิ่งนี้อย่างชัดเจน

รูปที่ 2: ความหน่วงและอัตราการใช้แบนด์วิดท์ของ DRAM แบบซ้อน 3 มิติ (TSV, ไม่มีการสลับ) แกนนอนแสดงถึงขนาดธุรกรรม สำหรับการเข้าถึงข้อมูลขนาดเล็ก แบนด์วิดท์ที่มีประสิทธิภาพจะลดลงอย่างรวดเร็ว เฉพาะเมื่อการส่งครั้งเดียวใกล้เคียงกับขนาดแถวเต็มเท่านั้น จึงจะสามารถกระจายค่าใช้จ่ายและถึงประสิทธิภาพสูงสุดได้ รูปนี้แสดงความสัมพันธ์ระหว่างขนาดธุรกรรมกับความหน่วงและอัตราการใช้แบนด์วิดท์ของ DRAM 3 มิติ ธุรกรรมขนาดเล็กไม่สามารถกระจายค่าใช้จ่ายในการเปิดใช้งาน Bank ได้ ส่งผลให้อัตราการใช้แบนด์วิดท์ลดลงอย่างมาก จากข้อมูลนี้ DeepStack ได้สร้างแบบจำลองแบนด์วิดท์ที่รับรู้ธุรกรรม ซึ่งแก้ไขสมมติฐานแบนด์วิดท์ในอุดมคติของการวิจัยก่อนหน้านี้ ทำให้การทำนายประสิทธิภาพหน่วยความจำสำหรับการอนุมาน LLM แบบกระจายมีความแม่นยำมากขึ้น และหลีกเลี่ยงความเบี่ยงเบนในการออกแบบที่เกิดจากการประเมินแบนด์วิดท์สูงเกินไป

นี่ไม่ใช่แค่การพลาดแคชทั่วไป ในระหว่างการอนุมาน LLM การกำหนดเส้นทางผู้เชี่ยวชาญแบบละเอียดและการแบ่งบล็อกเมทริกซ์มักจะสร้างกระแสข้อมูลขนาดเล็กที่กระจัดกระจายมาก DeepStack จับ “เส้นโค้งแบนด์วิดท์ที่รับรู้ธุรกรรม” นี้อย่างละเอียดและฝังไว้ในแบบจำลองประสิทธิภาพ หากไม่คำนึงถึงสิ่งนี้ สถาปนิกจะคิดอย่างไร้เดียงสาว่าการตัดผู้เชี่ยวชาญของโมเดล MoE ให้ละเอียดมากจะสามารถใช้แบนด์วิดท์ได้อย่างเต็มที่ แต่เมื่อโหลดโมเดลจริง พวกเขาจะพบว่าแบนด์วิดท์จริงเป็นเพียงเศษเสี้ยวของค่าทางทฤษฎี การขาดการสร้างแบบจำลองระดับจุลภาคนี้คือภาพลวงตาที่อันตรายถึงชีวิตซึ่งเกิดจากแบบจำลองต้นทุนแบบหยาบในอดีต

unsetunsetสอง: การก้าวหน้าแบบลำดับชั้น: การสร้างแบบจำลองฟูลสแต็กที่ยอดเยี่ยมจาก Tile สู่ระบบunsetunset

2.1 “ฝาแฝดดิจิทัล” ของสถาปัตยกรรมชิป

จากเอ็นจิ้นการประมวลผลเดี่ยวไปจนถึงระบบเครือข่ายเต็มรูปแบบ DeepStack กำหนดนามธรรมฮาร์ดแวร์แบบซ้อนกันห้าชั้น ทำให้มีความยืดหยุ่นในการกำหนดค่าสูงในขณะที่ยังคงความเป็นทั่วไป

แบบจำลองฮาร์ดแวร์ของ DeepStack สามารถประกอบได้อย่างยืดหยุ่นเหมือนบล็อกเลโก้

ชั้นต่ำสุดคือ PE ที่ประกอบด้วยหน่วยเวกเตอร์ หน่วยเมทริกซ์ และแคชที่กำหนดค่าได้; PE รวมกันเป็น “คลัสเตอร์” ที่มีแคช L2 และ DRAM แบบซ้อนแนวตั้ง;
คลัสเตอร์เชื่อมต่อกันผ่านเครือข่าย L1 เพื่อสร้าง “ได”;
ไดเชื่อมต่อกันผ่าน UCIe เพื่อสร้าง “ชิป”;
ชิปเชื่อมต่อกันผ่านอีเทอร์เน็ตเพื่อสร้าง “คลัสเตอร์โหนด”

โครงสร้างโทโพโลยีหกชั้นนี้ (จากระดับ PE ไปจนถึงระดับระบบ) ถูกเปิดเผยในรูปแบบพารามิเตอร์ให้กับอัลกอริธึมการค้นหา

รูปที่ 5: ตัวอย่างภาพตัดขวางและมุมมองด้านบนของสถาปัตยกรรม DRAM แบบซ้อน 3 มิติ การเชื่อมต่อแนวตั้งจากชั้นตรรกะ Tier ไปยังชั้นซ้อน DRAM นั้นมองเห็นได้ชัดเจน สถาปัตยกรรมนี้ต้องการให้บัฟเฟอร์และแบนด์วิดท์ตรงกันอย่างเคร่งครัดเพื่อเอาชนะความหน่วงทางกายภาพ รูปนี้แยกส่วนสถาปัตยกรรมแบบซ้อน 3 มิติออกเป็นห้าระดับ ได้แก่ เอ็นจิ้นการประมวลผล คลัสเตอร์ DRAM ได ชิป และระบบ โดยแสดงโครงสร้างการเชื่อมต่อที่สำคัญ เช่น TSV และ UCIe อย่างชัดเจน ผู้เขียนใช้แบบจำลองฮาร์ดแวร์แบบลำดับชั้นนี้เพื่อให้ DeepStack สามารถกำหนดค่าหน่วยประมวลผล แคช จำนวนชั้น DRAM และโทโพโลยีเครือข่ายได้อย่างยืดหยุ่น ทำให้มั่นใจได้ถึงความเป็นทั่วไปของการสร้างแบบจำลอง ทำให้สามารถปรับให้เข้ากับสถานการณ์การอนุมานแบบกระจายได้ตั้งแต่ชิปเดี่ยวไปจนถึงหลายโหนด

แบบจำลองแบบละเอียดนี้ช่วยให้ DeepStack จับข้อบกพร่องร้ายแรงเช่น “ความขัดแย้งของ Bank” ได้ เมื่อจัดการกับโอเปอเรเตอร์ขนาดเล็ก เนื่องจากขนาดของโอเปอเรเตอร์ไม่เพียงพอที่จะ “ป้อน” Bank อิสระทั้งหมดของ DRAM แบนด์วิดท์สูงสุดจึงลดลงอย่างรวดเร็ว DeepStack สร้างฮิสโตแกรมการเข้าถึง Bank ต่อคลื่น เพื่อค้นหา Bank ที่แออัดที่สุดซึ่งเป็นตัวกำหนดเวลาบริการ นี่คือการสรุปปัญหาการจัดตารางระดับจุลภาคเป็นข้อจำกัดทางคณิตศาสตร์ ซึ่งรักษาความแม่นยำในขณะที่ยังคงความเร็ว

2.2 “แทงโก้” ของการคำนวณและการสื่อสาร: การทับซ้อนของไปป์ไลน์ระดับ Tile

“เมื่อแบนด์วิดท์เครือข่ายเพิ่มขึ้น กลยุทธ์การแบ่งส่วนที่เหมาะสมที่สุดจะเปลี่ยนจาก ‘การแสวงหาการทับซ้อน’ ไปเป็น ‘การแสวงหาประสิทธิภาพการคำนวณ'” แบบจำลองการทับซ้อนระดับ Tile ของ DeepStack ดำเนินเกมไดนามิกระหว่างขนาดบล็อกและแบนด์วิดท์ NoC โดยอัตโนมัติ

ในการอนุมานแบบกระจาย การสื่อสารไม่ได้ดำรงอยู่อย่างอิสระ แต่ต้องทำงานร่วมกับการคำนวณ DeepStack แบ่งงานคำนวณเป็น Tile และสร้างแบบจำลองไปป์ไลน์สามระดับ ดังที่แสดงในสูตรด้านล่าง ความหน่วงทั้งหมดถูกแบ่งออกเป็นการคำนวณเริ่มต้น การส่งครั้งแรก ไปป์ไลน์สภาวะคงที่ และการคำนวณท้าย

แบบจำลองนี้เชื่อมโยงประสิทธิภาพการทับซ้อนกับจำนวนคลื่น เวลาคำนวณต่อคลื่น เวลาส่ง และความหน่วงของเครือข่ายที่ไม่มีโหลดอย่างแน่นหนา โดยให้ฟังก์ชันต้นทุนที่สามารถวิเคราะห์ได้สำหรับการค้นหากลยุทธ์การแบ่งส่วนที่เหมาะสมที่สุดโดยอัตโนมัติ

ประเด็นสำคัญคือ ถ้าแบนด์วิดท์เครือข่ายต่ำมาก คุณต้องตัดเมทริกซ์ให้ละเอียดพอที่จะได้ระดับไปป์ไลน์เพียงพอที่จะซ่อนความหน่วงของการสื่อสาร แต่ถ้าตัดละเอียดเกินไป ประสิทธิภาพการคำนวณของ GPU ก็จะลดลง

รูปที่ 7: การสร้างแบบจำลองการทับซ้อนของการคำนวณ-การสื่อสารระดับ Tile สำหรับ GEMM กราฟย่อยสี่กราฟเปรียบเทียบผลกระทบของกลยุทธ์บล็อกเล็กและบล็อกใหญ่ต่อเวลาดำเนินการทั้งหมดภายใต้แบนด์วิดท์ NoC ต่ำ (a,b) และแบนด์วิดท์ NoC สูง (c,d) ระดับการทับซ้อนของบล็อกการคำนวณสีฟ้าอ่อนและบล็อกการสื่อสารสีแดงแสดงให้เห็นอย่างชัดเจนว่าแบนด์วิดท์สามารถพลิกกลับกลยุทธ์การจัดตารางเวลาที่เหมาะสมที่สุดได้อย่างไร รูปนี้เปรียบเทียบผลของการทับซ้อนของการคำนวณ-การสื่อสารภายใต้แบนด์วิดท์ NoC และขนาด Tile ที่แตกต่างกัน เผยให้เห็นการแลกเปลี่ยนระหว่างขนาด Tile ประสิทธิภาพการทับซ้อน และการนำกลับมาใช้ใหม่ในการคำนวณ DeepStack ปรับกลยุทธ์ Tile ให้เหมาะสมโดยอัตโนมัติ ปรับเปลี่ยนแบบไดนามิกร่วมกับความหน่วงของเครือข่ายเพื่อเพิ่มประสิทธิภาพการดำเนินการอนุมานแบบกระจายให้สูงสุด การสร้างแบบจำลองนี้เป็นจุดทางเทคนิคสำคัญในการปรับปรุงประสิทธิภาพการอนุมานแบบ end-to-end

ตัวอย่างในรูปด้านบนมีชีวิตชีวามาก

ภายใต้แบนด์วิดท์ต่ำ แม้บล็อกเมทริกซ์เล็กจะคำนวณช้ากว่า แต่สามารถซ่อนบล็อกการสื่อสารสีแดงผ่านไปป์ไลน์ได้
ภายใต้แบนด์วิดท์สูง การสื่อสารแทบไม่ใช้เวลา การตัดเป็นชิ้นเล็กทำให้เกิดสิ่งรบกวนซึ่งเพิ่มเวลาทั้งหมด

การค้นหาการออกแบบของ DeepStack ไม่ใช่แค่ “การตั้งค่าขนาดบล็อก” แต่เป็นการรวมกลยุทธ์การแบ่งส่วนเข้ากับแบนด์วิดท์เครือข่ายและแบนด์วิดท์ที่มีประสิทธิภาพของ DRAM ในลูปการค้นหา ซึ่งช่วยปลดปล่อยมือของวิศวกรอย่างสมบูรณ์

2.3 “สองเฟส” เวทมนตร์เครือข่าย: ทำไมถึงเร็วกว่า 100,000 เท่า?

นี่คืออาวุธหลักที่ทำให้ DeepStack มีความเร็วเหนือชั้นอย่างแท้จริง มันใช้แบบจำลองทางคณิตศาสตร์ของ “การกำหนดเส้นทางเมทริกซ์การรับส่งข้อมูล” เพื่อคำนวณจุดคอขวดของเครือข่ายทั้งหมดโดยตรง จึงหลีกเลี่ยงการจำลองแบบเหตุการณ์ที่ไม่ต่อเนื่องซึ่งใช้เวลานาน

สาม: การตรวจสอบที่แข็งแกร่ง: “ตรวจคำตอบ” กับซิลิคอนและเซิร์ฟเวอร์จริง

การจำลองเครือข่ายระดับ NS-3 แบบดั้งเดิมต้องส่งและรับแพ็กเก็ตทีละแพ็กเก็ตและไกล่เกลี่ยข้อขัดแย้ง การจำลองการสื่อสารแบบ All-to-All เพียงครั้งเดียวอาจใช้เวลาถึง 3 ชั่วโมง DeepStack ใช้นามธรรมทางคณิตศาสตร์ “เมทริกซ์การรับส่งข้อมูล” ที่ชาญฉลาดอย่างยิ่ง ประการแรก มันทำให้ความต้องการการสื่อสารที่เกิดขึ้นพร้อมกันทั้งหมด (เช่น All-Reduce ของ TP, All-to-All ของ EP) ราบเรียบเป็นตารางการรับส่งข้อมูลเชิงตรรกะ จากนั้น ในเฟสที่สอง เมื่อแมปไปยังโทโพโลยีทางกายภาพ (ริง, เมช, สวิตช์) มันจะซ้อนทับการรับส่งข้อมูลเหล่านี้บนลิงก์ทางกายภาพที่เฉพาะเจาะจง

รูปที่ 6: ตัวอย่างการแมปการรับส่งข้อมูลแบบ All-to-All ของโหนดลอจิก EP 64 โหนดไปยังโทโพโลยี Torus-Mesh-Mesh สามชั้น (a) ในเมทริกซ์การรับส่งข้อมูลเชิงตรรกะ ยิ่งสีสว่างมาก ปริมาณการสื่อสารยิ่งมาก; (b) การกระจายแบนด์วิดท์โทโพโลยีทางกายภาพ; (c) การกระจายการรับส่งข้อมูลทางกายภาพหลังการกำหนดเส้นทาง; (d) อัตราการใช้ลิงก์สุดท้าย เส้นสีแดงคือลิงก์สำคัญที่กำหนด T_cong รูปนี้แสดงกระบวนการนามธรรมเครือข่ายสองเฟสของ DeepStack: สร้างเมทริกซ์การรับส่งข้อมูลก่อน จากนั้นจึงแมปไปยังโทโพโลยีทางกายภาพ วิธีนี้หลีกเลี่ยงปัญหาการสร้างแบบจำลองแบบเหตุการณ์ที่ไม่มีประสิทธิภาพ การประเมินโทโพโลยี 256 โหนดใช้เวลาเพียง 0.1 วินาที และความคลาดเคลื่อนต่ำกว่า 5% บทความยืนยันว่าเทคโนโลยีนี้มีความเร็วเพิ่มขึ้น 100,000 เท่าเมื่อเทียบกับแบ็กเอนด์ NS-3 ซึ่งแก้ปัญหาคอขวดด้านเวลาของ DSE ขนาดใหญ่ได้อย่างสมบูรณ์ และเป็นนวัตกรรมหลักของการสร้างแบบจำลองเครือข่ายที่มีประสิทธิภาพ

DeepStack แยกเวลาเครือข่ายเป็นผลรวมของ “ความหน่วงของการกระโดดทางกายภาพ” และ “ความหน่วงของการแออัดของลิงก์สูงสุด” ข้อมูลเชิงลึกหลักคือ: ปัจจัยสำคัญที่กำหนดความหน่วงของเครือข่ายการฝึก/อนุมานแบบกระจายคือผลรวมของความหน่วงของการกระโดดทางกายภาพและความหน่วงของการจัดลำดับของลิงก์ที่แออัดที่สุด ซึ่งทั้งสองอย่างอาจเป็นคอขวดได้ ด้วยการระบุอัตราส่วนการรับส่งข้อมูล/แบนด์วิดท์สูงสุดของลิงก์คอขวดโดยตรง DeepStack ใช้เวลาเพียง 0.1 วินาทีในการจำลองให้เสร็จซึ่งแต่เดิมใช้เวลาหลายชั่วโมง และมีความคลาดเคลื่อนต่ำมาก อัลกอริธึมนี้ยังคงให้ผลลัพธ์ทันทีสำหรับโทโพโลยี 256 โหนด ซึ่งเป็นรากฐานทางคณิตศาสตร์ที่ทำให้สามารถค้นหาความเป็นไปได้ 10^14 แบบ

3.1 การเทียบเคียงกับ Cadence Palladium และคลัสเตอร์ B200

ถ้าแบบจำลองแยกจากโลกแห่งความเป็นจริง การค้นหาทั้งหมดก็เป็นเพียงเรื่องไร้สาระ คำตอบของ DeepStack คือ: ความคลาดเคลื่อนน้อยกว่า 5% เมื่อเทียบกับซิมูเลเตอร์ที่แม่นยำตามรอบสัญญาณนาฬิกา Cadence Palladium; MAPE 12.18% เมื่อเทียบกับกระบวนการอนุมานเต็มรูปแบบของ vLLM ที่ทำงานบนเซิร์ฟเวอร์ 8×B200

ตารางที่ 2: ข้อมูลจำเพาะของสถาปัตยกรรมต่อ 800mm² ตารางนี้แสดงพารามิเตอร์ต่างๆ เช่น พลังการประมวลผล แบนด์วิดท์แคช การรองรับ WGMMA ภายใต้การกำหนดค่าฮาร์ดแวร์ที่แตกต่างกันบนกระบวนการ 7nm โดยเปรียบเทียบ H100/H200 กับสถาปัตยกรรม 3 มิติที่พัฒนาขึ้นเองภายใต้ข้อจำกัดพื้นที่เดียวกัน ผู้เขียนดำเนินการ DSE ตามชุดพารามิเตอร์นี้ ตรวจสอบข้อได้เปรียบด้านแบนด์วิดท์ของ DRAM แบบซ้อน 3 มิติ และวัดปริมาณการแลกเปลี่ยนพื้นที่ระหว่างการคำนวณ แคช และการเชื่อมต่อระหว่างกัน ซึ่งเป็นเกณฑ์มาตรฐานสำหรับการกำหนดค่าพารามิเตอร์ฮาร์ดแวร์

ในรูปที่ 8 และ 9 ด้านล่าง ผู้เขียนแสดงกระบวนการตรวจสอบที่น่าเชื่อถือ พวกเขาไม่เพียงแต่ใช้ Palladium จำลองบนการออกแบบชิป 3 มิติภายในเท่านั้น แต่ยังรัน vLLM บน B200 8 ใบจริงเพื่อวัดความคลาดเคลื่อนของ TP และ EP สำหรับซีรีส์โมเดล DeepSeek

รูปที่ 8: การเปรียบเทียบความแม่นยำของ DeepStack กับเคอร์เนลแบบกระจาย Triton บนคลัสเตอร์ GPU H100 จริง 8 ตัว แกนนอนแสดงโอเปอเรเตอร์ GEMM ที่มีรูปร่างต่างกัน เส้นโค้งการทำนายของแบบจำลองเกือบทับกับจุดที่วัดได้ ความคลาดเคลื่อนเฉลี่ยต่ำถึง 3.97% รูปนี้ตรวจสอบความแม่นยำของการสร้างแบบจำลองของ DeepStack บนเคอร์เนลแบบกระจาย ผู้เขียนทดสอบบนคลัสเตอร์ H100 จริง พิสูจน์ความแม่นยำสูงของการสร้างแบบจำลองการคำนวณและการสื่อสาร ทำให้ผลลัพธ์ DSE สามารถชี้แนะการออกแบบฮาร์ดแวร์ได้โดยตรง หลีกเลี่ยงการแยกตัวระหว่างการจำลองและประสิทธิภาพฮาร์ดแวร์จริง รูปที่ 9: ความแม่นยำของการสร้างแบบจำลอง TP/EP vLLM ของ DeepStack บน GPU 8×B200 รูปนี้แสดง MAPE ของการอนุมานแบบ end-to-end ของ DeepStack ภายใต้ขนาดโมเดลและขนาดแบตช์ที่แตกต่างกันที่ 12.18% ความเบี่ยงเบนเกิดจากรายละเอียดการใช้งานแบบไดนามิก เช่น FlashMLA เท่านั้น ผู้เขียนตรวจสอบบนคลัสเตอร์ B200 ครอบคลุมโมเดลหลัก เช่น LLaMA, Qwen3, DeepSeek พิสูจน์ว่าเฟรมเวิร์กนี้มีความสามารถในการสร้างแบบจำลองทั่วไปสำหรับทั้งโมเดลหนาแน่นและโมเดล MoE

ที่สำคัญกว่านั้น ภายใต้โทโพโลยีที่ซับซ้อน เช่น Switch และ Torus DeepStack จ่ายค่าความคลาดเคลื่อนเพียง 2.12% และ 1.62% เพื่อแลกกับความเร็วที่เพิ่มขึ้น 100,000 เท่าเมื่อเทียบกับซิมูเลเตอร์ NS-3 สิ่งนี้ทำให้การออกแบบร่วมเชิงลึกเปลี่ยนจาก “ศาสตร์มืด” มาเป็น “วิทยาศาสตร์” อย่างแท้จริง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง