Ouroboros: สถาบันวิทยาศาสตร์คอมพิวเตอร์ของจีนเปิดตัวชิปคอมพิวเตอร์และหน่วยความจำแบบบูรณาการระดับเวเฟอร์ เพิ่มปริมาณการอนุมานโมเดลขนาดใหญ่ 9.1 เท่า

2 hours ago • การอนุมานโมเดลขนาดใหญ่ • 12 views

สถาบันคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์จีนเปิดตัวชิป Ouroboros แบบ Wafer-Scale ที่รวมหน่วยความจำและการประมวลผลไว้ด้วยกัน เพิ่มปริมาณงานการอนุมานโมเดลขนาดใหญ่สูงสุด 9.1 เท่า

การพัฒนาโมเดลขนาดใหญ่ในปัจจุบันแสดงให้เห็นถึงแนวโน้มที่ขนาดโมเดลเพิ่มขึ้นอย่างต่อเนื่อง ความต้องการฮาร์ดแวร์คอมพิวเตอร์ก็เติบโตอย่างรวดเร็วเช่นกัน ตั้งแต่พารามิเตอร์หลายแสนล้านไปจนถึงระดับล้านล้าน การวนซ้ำแต่ละครั้งต่างก็กำหนดข้อกำหนดที่สูงขึ้นสำหรับทรัพยากรฮาร์ดแวร์

Ouroboros: สถาบันวิทยาศาสตร์คอมพิวเตอร์ของจีนเปิดตัวชิปคอมพิวเตอร์และหน่วยความจำแบบบูรณาการระดับเวเฟอร์ เพิ่มปริมาณการอนุมานโมเดลขนาดใหญ่ 9.1 เท่า

ในบริบทนี้ ค่าใช้จ่าย “แฝง” ที่สำคัญได้ปรากฏชัดเจนขึ้นเรื่อยๆ: การเคลื่อนย้ายข้อมูล ในสถาปัตยกรรมการคำนวณแบบดั้งเดิม กระบวนการอนุมานหนึ่งครั้งมักต้องอ่านและเขียนข้อมูลซ้ำๆ ระหว่าง DRAM, SRAM และหน่วยประมวลผล การเข้าถึงหน่วยความจำบ่อยครั้งไม่เพียงแต่ทำให้เกิดความล่าช้าสูง แต่ยังใช้พลังงานจำนวนมากด้วย การวิจัยบางชิ้นชี้ให้เห็นว่าเวลาที่ใช้ในการคำนวณจริงนั้นน้อยกว่าเวลาที่ใช้ในการเคลื่อนย้ายข้อมูลมาก

เพื่อแก้ไขปัญหานี้ แนวคิดที่มีศักยภาพสูงจึงเกิดขึ้น: กำจัดการเคลื่อนย้ายข้อมูลโดยสิ้นเชิง สิ่งนี้นำไปสู่เส้นทางเทคโนโลยีสองเส้นทางที่ได้รับความสนใจอย่างมาก: การรวมหน่วยความจำและการประมวลผลไว้ด้วยกัน และ การรวมระดับเวเฟอร์

การรวมหน่วยความจำและการประมวลผลไว้ด้วยกัน: ผสานการจัดเก็บข้อมูลและการคำนวณไว้ในชิปเดียวกัน ทำให้ข้อมูลถูกประมวลผลในตำแหน่งเดิม หลีกเลี่ยงการเคลื่อนย้ายบ่อยครั้ง
การรวมระดับเวเฟอร์: สร้างระบบขนาดใหญ่มหึมาโดยตรงบนแผ่นเวเฟอร์ซิลิกอนทั้งแผ่น ผ่านการเชื่อมต่อแบนด์วิธสูงพิเศษ เพื่อให้ได้ทรัพยากรหน่วยความจำและการคำนวณแบบรวมเป็นหนึ่งเดียวในระดับเวเฟอร์

ทีมวิจัยจากสถาบันคอมพิวเตอร์แห่งสถาบันวิทยาศาสตร์จีนได้ก้าวหน้าอย่างสำคัญในทิศทางนี้ ผลงานล่าสุดของพวกเขา Ouroboros ได้รับการตีพิมพ์ในที่ประชุมระดับสูงสุดของสาขาสถาปัตยกรรมคอมพิวเตอร์ — การประชุมนานาชาติ ACM ครั้งที่ 31 ว่าด้วยการสนับสนุนสถาปัตยกรรมสำหรับภาษาโปรแกรมและระบบปฏิบัติการ (ASPLOS)

Ouroboros ได้รับการพัฒนาขึ้นเป็นชิประดับเวเฟอร์ที่สร้างขึ้นทั้งหมดจากเซลล์หน่วยความจำและการประมวลผลแบบ SRAM ในชิปนี้ ข้อมูลทั้งหมดที่จำเป็นสำหรับการอนุมานโมเดล — น้ำหนัก, KV Cache และค่าการกระตุ้น — ถูกเก็บไว้ใน SRAM บนชิปทั้งหมด โดยไม่จำเป็นต้องเคลื่อนย้ายจาก DRAM ภายนอก การคำนวณทั้งหมดเสร็จสิ้นในตำแหน่งที่เก็บข้อมูล ทำให้บรรลุกระบวนทัศน์การรวมหน่วยความจำและการประมวลผลที่แท้จริงซึ่ง “ข้อมูลไม่ย้ายที่ การคำนวณอยู่ตรงนั้น”

ชิปใช้การออกแบบแบบลำดับชั้น แบ่งจากบนลงล่างเป็นสามชั้น:

1. การรวมระดับเวเฟอร์
ชั้นบนสุดของชิปคือเวเฟอร์ขนาดใหญ่แผ่นเดียว ซึ่งรวม SRAM ขนาด 54GB สามารถเก็บน้ำหนักโมเดล ค่าการกระตุ้น และ KV Cache ได้ครบถ้วน กำจัดค่าใช้จ่ายในการเข้าถึง DRAM โดยสิ้นเชิง เวเฟอร์ทั้งแผ่นประกอบด้วยชิปเล็ตขนาดเดียวกันที่เชื่อมต่อกันอย่างแนบเนียนด้วยเทคโนโลยี stitching ก่อตัวเป็นระนาบการคำนวณที่ถูกจัดตารางงานแบบรวมเป็นหนึ่งเดียว

2. การจัดระเบียบระดับชิป
ภายในแต่ละชิปเล็ตประกอบด้วยแกนประมวลผลและหน่วยความจำหลายร้อยแกนที่จัดเรียงเป็นโครงข่ายตาราง แกนต่างๆ เชื่อมต่อกันด้วยลิงก์แบนด์วิธสูง การออกแบบนี้ผลักดันพื้นที่ของชิปเล็ตไปสู่ขีดจำกัดของลิโทกราฟีเพื่อเพิ่มความจุ SRAM ให้สูงสุด และนำกลไกการทนต่อข้อผิดพลาดระดับแกนมาใช้เพื่อรับประกันความน่าเชื่อถือของชิปขนาดใหญ่

3. สถาปัตยกรรมระดับไมโครของแกนประมวลผลและหน่วยความจำ
แต่ละแกนประกอบด้วยแคชอินพุต/เอาต์พุต อาร์เรย์ประมวลผลและหน่วยความจำ หน่วยฟังก์ชันเฉพาะทาง และหน่วยควบคุม ความจุของแคชสามารถรองรับข้อมูล token ของโมเดลขนาดใหญ่ทั่วไปได้ ลดการส่งข้อมูลระหว่างแกนลงอย่างมาก อาร์เรย์ประมวลผลและหน่วยความจำเชื่อมต่อกันผ่านโครงข่ายบนชิปที่ได้รับการปรับให้เหมาะสม หน่วยฟังก์ชันเฉพาะทางดำเนินการต่างๆ เช่น softmax ด้วยระดับความขนานที่สอดคล้องกัน ในขณะที่หน่วยควบคุมประสานงานการซิงโครไนซ์ไปป์ไลน์ระหว่างแกนและภายในแกน

แม้ว่า Ouroboros จะสร้างระนาบการคำนวณระดับเวเฟอร์ที่ทรงพลัง แต่เมื่อรันโมเดลขนาดใหญ่ก็ยังคงเผชิญกับความท้าทายสำคัญหลายประการ:

ประการแรก ข้อจำกัดความจุของ SRAM

แม้จะรวม SRAM จำนวนมากไว้บนเวเฟอร์ แต่เนื่องจากความหนาแน่นของ SRAM เอง ความจุการจัดเก็บบนชิปจึงยังไม่เพียงพอ เมื่อขนาดโมเดลขยายตัวต่อไป วิธีที่จะใส่ค่าน้ำหนักและสถานะที่ใหญ่ขึ้นเรื่อยๆ ลงในพื้นที่บนชิปที่มีจำกัด ยังคงเป็นปัญหาที่หลีกเลี่ยงไม่ได้

ประการที่สอง ปัญหาการจัดตารางงานของอาร์เรย์ขนาดมหึมา

เมื่อหน่วยประมวลผลหลายร้อยหลายพันหน่วยกระจายเต็มเวเฟอร์ วิธีที่จะ “แยกส่วน” และแมปโมเดลลงบนอาร์เรย์แบบกระจายนี้ได้อย่างมีประสิทธิภาพ ก็กลายเป็นงานวิศวกรรมระบบที่ซับซ้อน การจัดวางหน่วยความจำ การจัดตารางงานการไหลของข้อมูล การมอบหมายงาน… แต่ละอย่างล้วนต้องการแนวทางการออกแบบใหม่ทั้งหมด

ประการที่สาม การปรับให้เหมาะสมร่วมกันของการคำนวณและการจัดเก็บ

ในสถาปัตยกรรมที่รวมหน่วยความจำและการประมวลผลไว้ด้วยกัน การคำนวณและการจัดเก็บถูกผูกมัดอย่างแน่นหนา — การคำนวณเกิดขึ้นในตำแหน่งที่เก็บข้อมูล และการจัดวางหน่วยความจำก็กำหนดประสิทธิภาพการคำนวณโดยตรง ดังนั้น จำเป็นต้องออกแบบและปรับให้เหมาะสมทั้งสองอย่างไปพร้อมกัน เพื่อเพิ่มประสิทธิภาพโดยรวมให้สูงสุด

เพื่อปลดปล่อยศักยภาพการคำนวณของเวเฟอร์นี้อย่างเต็มที่ ทีมงานได้สร้าง เฟรมเวิร์กการอนุมานโมเดลขนาดใหญ่แบบครบวงจร ขึ้นมาโดยเฉพาะ
* เริ่มจากการแบ่งส่วนไปป์ไลน์ของโมเดลโดยรวม เฟรมเวิร์กนี้ได้รับการปรับแต่งอย่างละเอียดเฉพาะทาง โดยมีเป้าหมายเพื่อให้ทรัพยากรประมวลผลและหน่วยความจำถูกใช้อย่างเต็มที่
* ต่อมา ทีมได้ออกแบบชุด กลยุทธ์การแมปน้ำหนัก — ไม่เพียงแต่พิจารณาการจัดสรรทรัพยากรฮาร์ดแวร์ แต่ยังนำวิธีการแมปแบบลำดับชั้นมาใช้ เพื่อลดการส่งข้อมูลให้น้อยที่สุด
* และสำหรับ KV Cacheแผนการจัดการแคช KV แบบไดนามิกแบบกระจาย ร่วมกับการสนับสนุนฮาร์ดแวร์ที่สอดคล้องกัน ทำให้อัตราการใช้พื้นที่ของแคชบนชิปเพิ่มขึ้นสู่ระดับใหม่

ภายใต้การออกแบบร่วมกันตั้งแต่ชิปไปจนถึงระบบ Ouroboros ได้นำแนวคิด “การคำนวณในตำแหน่งเดิม” ไปปฏิบัติ และแสดงผลลัพธ์ด้านประสิทธิภาพและประสิทธิภาพการใช้พลังงานที่โดดเด่น ผลการทดลองแสดงให้เห็นว่า:
* ปริมาณงานเฉลี่ยสูงกว่าระบบชั้นนำที่มีอยู่ในปัจจุบัน 4.1 เท่า
* ประสิทธิภาพการใช้พลังงานเฉลี่ยเพิ่มขึ้น 4.2 เท่า

และในโมเดลขนาด 13B พารามิเตอร์ ผลลัพธ์โดดเด่นเป็นพิเศษ:
* ปริมาณงานสูงสุดถึง 9.1 เท่า
* ประสิทธิภาพการใช้พลังงานเพิ่มขึ้น 17 เท่า

เมื่อใช้เวเฟอร์เดี่ยวในการอนุมานโมเดล Llama 13B และทำการทดสอบบนชุดข้อมูล WikiText‑2 ปริมาณงานของระบบสามารถคงที่ที่ 150,000 tokens/วินาที ผลลัพธ์นี้ยืนยันประสิทธิภาพของ Ouroboros ภายใต้ภาระงานโมเดลขนาดใหญ่จริงเพิ่มเติม

ข้อมูลข้างต้นไม่เพียงแต่ยืนยันความก้าวหน้าด้านประสิทธิภาพและประสิทธิภาพการใช้พลังงาน แต่ยังให้การสนับสนุนอย่างแข็งแกร่งสำหรับความได้เปรียบของเส้นทางเทคโนโลยี “การรวมหน่วยความจำและการประมวลผลไว้ด้วยกัน + การรวมระดับเวเฟอร์” การวิจัยนี้ถือเป็นก้าวสำคัญในทิศทางของการกำจัดการเคลื่อนย้ายข้อมูลและการสร้างระบบอนุมานโมเดลขนาดใหญ่ที่มีประสิทธิภาพ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง