Meta 2 ปี 4 รุ่น MTIA: ตัวเร่ง AI สถาปัตยกรรม RISC-V ออกแบบแบบโมดูลาร์ เพิ่มพลังประมวลผล 25 เท่าสำหรับการอนุมาน AI แบบสร้างสรรค์

2026年3月14日 am10:56 • ข่าวสารอุตสาหกรรม AI • 216 views

คำสำคัญ: ชิป MTIA, ตัวเร่ง AI สถาปัตยกรรม RISC-V, การอนุมาน AI แบบสร้างสรรค์, การออกแบบแบบโมดูลาร์, การวนซ้ำอย่างรวดเร็ว, PyTorch ดั้งเดิม

ทุกวัน ผู้ใช้หลายพันล้านคนบนแพลตฟอร์ม Meta ใช้ฟีเจอร์ที่ขับเคลื่อนด้วย AI หลากหลายประเภท ตั้งแต่คำแนะนำส่วนบุคคลไปจนถึงผู้ช่วย AI โมเดล AI ที่กำหนดยุคการคำนวณถัดไป มีการวนซ้ำเร็วกว่าวัฏจักรการพัฒนาฮาร์ดแวร์แบบดั้งเดิมมาก การปรับใช้โมเดล AI หลากหลายประเภทในระดับโลกพร้อมกับลดต้นทุนให้มากที่สุด เป็นปัญหาด้านโครงสร้างพื้นฐานที่ท้าทายอย่างยิ่งในอุตสาหกรรม ในการตอบสนองต่อสิ่งนี้ วิธีของ Meta คือการกำหนดเส้นทางพัฒนาอย่างชัดเจนสำหรับอนาคต จัดหาโซลูชันที่ยืดหยุ่นในปัจจุบัน และปรับปรุงอย่างต่อเนื่องตามความต้องการที่เปลี่ยนแปลงไป

Meta มุ่งมั่นที่จะจัดพอร์ตโฟลิโอชิปที่หลากหลายเสมอมา โดยใช้โซลูชันที่เหมาะสมที่สุดซึ่งรวมถึงการพัฒนาด้วยตนเองและการจัดซื้อจากภายนอก ในจำนวนนี้ ชุดชิป AI ที่พัฒนาด้วยตนเองของ Meta ซึ่งเป็นตัวเร่งการฝึกอบรมและการอนุมาน (MTIA, Meta Training and Inference Accelerator) ที่พัฒนาร่วมกับ Broadcom อย่างลึกซึ้ง เป็นส่วนสำคัญของกลยุทธ์โครงสร้างพื้นฐาน AI ของ Meta และมีบทบาทสำคัญในการให้ฟีเจอร์ที่ขับเคลื่อนด้วย AI แก่ผู้ใช้หลายพันล้านคนด้วยต้นทุนประสิทธิภาพสูง

Meta 2 ปี 4 รุ่น MTIA: ตัวเร่ง AI สถาปัตยกรรม RISC-V ออกแบบแบบโมดูลาร์ เพิ่มพลังประมวลผล 25 เท่าสำหรับการอนุมาน AI แบบสร้างสรรค์

เมื่อเผชิญกับความท้าทายของอุตสาหกรรมที่การวนซ้ำของโมเดล AI เร็วกว่าวัฏจักรการพัฒนาฮาร์ดแวร์มาก Meta ได้พัฒนาชิปที่พัฒนาด้วยตนเองสี่รุ่นอย่างรวดเร็วจาก MTIA 300 ถึง 500 ภายในสองปี ชุดชิปนี้ใช้สถาปัตยกรรมชิปเล็ตแบบโมดูลาร์ โดยประสิทธิภาพหลักมีการปรับปรุงแบบก้าวกระโดด: แบนด์วิธ HBM เพิ่มขึ้น 4.5 เท่าจากรุ่น 300 ถึง 500, กำลังการคำนวณ (FLOPS) เพิ่มขึ้น 25 เท่า และการครอบคลุมเวิร์กโหลดก็ขยายจาก การฝึกอบรม/การอนุมานการจัดอันดับและคำแนะนำ (R&R) ไปจนถึงการอนุมานและการฝึกอบรม AI แบบสร้างสรรค์ (GenAI) ทุกสถานการณ์

ในจำนวนนี้ MTIA 300 เป็นพื้นฐานของซีรีส์ด้วยต้นทุนประสิทธิภาพสูง รุ่น 400 บรรลุการพัฒนาที่มีกำลังการคำนวณเทียบเท่ากับผลิตภัณฑ์เชิงพาณิชย์หลัก รุ่น 450 ปรับปรุงการอนุมาน GenAI อย่างตรงเป้าหมายและเพิ่มแบนด์วิธ HBM เป็นสองเท่า ส่วนรุ่น 500 เพิ่มแบนด์วิธอีก 50% และเพิ่มกำลังการคำนวณ 43%

กลยุทธ์หลักที่ Meta กำหนดให้ MTIA หมุนรอบสามเสาหลัก: โหมดการวิจัยและพัฒนาความเร็วสูงที่วนซ้ำทุกครึ่งปี, การออกแบบที่ให้ความสำคัญกับการอนุมานซึ่งสอดคล้องกับความต้องการที่เพิ่มขึ้นอย่างรวดเร็วของการอนุมาน GenAI, และระบบนิเวศการนำไปใช้ที่มีเกณฑ์ต่ำซึ่งเข้ากันได้กับ PyTorch/vLLM/OCP

ด้วยซอฟต์แวร์สแต็กที่รองรับ PyTorch ดั้งเดิม (รองรับการย้ายโมเดลแบบไร้รอยต่อ การปรับแต่งโอเปอเรเตอร์อัตโนมัติ) และสถาปัตยกรรมการปรับใช้ฮาร์ดแวร์ที่เป็นเอกภาพ ปัจจุบัน MTIA ได้ถูกปรับใช้ในสภาพแวดล้อมการผลิตหลายแสนตัว ไม่เพียงแต่แก้ไขปัญหาอุตสาหกรรมของการปรับชิปแบบดั้งเดิมให้เข้ากับโมเดล AI ที่ล่าช้าได้อย่างมีประสิทธิภาพ แต่ยังให้บริการ AI แก่ผู้ใช้ Meta หลายพันล้านคนอย่างมีเสถียรภาพด้วยต้นทุนประสิทธิภาพสูง และกลายเป็นพลังหลักที่สนับสนุนโครงสร้างพื้นฐาน AI ของ Meta

ที่สำคัญกว่านั้น การพัฒนาจาก MTIA 300 ถึง MTIA 500 ไม่ใช่การซ้อนฮาร์ดแวร์แบบง่ายๆ แต่เป็นไปตามความเข้าใจเชิงลึกเกี่ยวกับเวิร์กโหลดจริง ตัวอย่างเช่น Meta สังเกตว่าแบนด์วิธของหน่วยความจำแบนด์วิธสูง (HBM) เป็นคอขวดสำคัญสำหรับการอนุมาน AI แบบสร้างสรรค์ ดังนั้น แบนด์วิธ HBM จึงเพิ่มขึ้นจาก 9.2 TB/s ใน MTIA 400 เป็น 18.4 TB/s ใน MTIA 450 และในที่สุดถึง 27.6 TB/s ใน MTIA 500 พร้อมทั้งนำการปรับปรุงประเภทข้อมูลความแม่นยำต่ำที่ตรงเป้าหมายมาใช้

โหมด “การวนซ้ำที่ขับเคลื่อนโดยคอขวดจริง” นี้ ทำให้มั่นใจได้ว่าการออกแบบฮาร์ดแวร์จะสอดคล้องกับโมเดล AI ที่พัฒนาอย่างรวดเร็วอย่างเป็นพลวัต แม้ว่าวัฏจักรการพัฒนาฮาร์ดแวร์จะยากที่จะตามการวนซ้ำของโมเดลให้ทันอย่างสมบูรณ์ แต่กลยุทธ์ของ Meta คือการเปลี่ยน “ช่วงเวลาห่าง” นี้ให้เป็นความสามารถในการ “ตอบสนองอย่างรวดเร็ว” แทนที่จะไล่ตามการออกแบบที่แก้ไขได้ครั้งเดียวตลอดไป

หนึ่ง. อดีตและอนาคตของ MTIA

Meta ได้เผยแพร่บทความวิชาการในการประชุม International Computer Architecture Conference (ISCA) ปี 2023 และ 2025 โดยอธิบายรายละเอียดเกี่ยวกับชิป MTIA สองรุ่นแรก (MTIA 100 และ MTIA 200 ซึ่งเคยใช้ชื่อว่า MTIA 1 และ MTIA 2i) ปัจจุบัน มีชิป MTIA หลายแสนตัวถูกปรับใช้ในสภาพแวดล้อมการผลิต เชื่อมต่อกับโมเดลภายในจำนวนมาก และผ่านการทดสอบและตรวจสอบโมเดลภาษาขนาดใหญ่ รวมถึง Llama

หลังจาก MTIA 100 และ MTIA 200 แล้ว Meta ได้วิจัยและพัฒนาชิปสี่รุ่นติดต่อกันอย่างรวดเร็ว: MTIA 300, 400, 450 และ 500 ชิปใหม่เหล่านี้บางรุ่นได้ถูกปรับใช้แล้ว หรือวางแผนจะเปิดตัวระหว่างปี 2026 ถึง 2027 เวิร์กโหลดที่รองรับก็ขยายจากการอนุมานการจัดอันดับและคำแนะนำในตอนแรก ไปสู่การฝึกอบรมการจัดอันดับและคำแนะนำ เวิร์กโหลด AI แบบสร้างสรรค์ทั่วไป และการอนุมาน AI แบบสร้างสรรค์ที่ได้รับการปรับแต่งเฉพาะทาง

การวนซ้ำของโมเดล AI เร็วกว่าวัฏจักรการพัฒนาชิปแบบดั้งเดิมมาก การออกแบบชิปมักจะขึ้นอยู่กับการคาดการณ์เวิร์กโหลดในอนาคต แต่เมื่อฮาร์ดแวร์เข้าสู่การผลิตจำนวนมาก (โดยปกติใช้เวลาสองปี) เวิร์กโหลดอาจเปลี่ยนแปลงไปอย่างมาก ด้วยเหตุนี้ Meta จึงไม่ได้เลือกที่จะเดิมพันการออกแบบเดียวในระยะยาว แต่ใช้แนวคิดการวิจัยและพัฒนาแบบวนซ้ำ: MTIA แต่ละรุ่นได้รับการปรับปรุงจากรุ่นก่อนหน้า โดยใช้การออกแบบชิปเล็ตแบบโมดูลาร์เพื่อลดความยากในการพัฒนา เพิ่มการนำส่วนประกอบกลับมาใช้ใหม่ ผสมผสานความเข้าใจเชิงลึกเกี่ยวกับเวิร์กโหลด AI และเทคโนโลยีฮาร์ดแวร์ล่าสุด และดำเนินการปรับใช้ให้เสร็จสิ้นในวัฏจักรที่สั้นกว่า วงจรวนซ้ำที่กระชับนี้ทำให้ฮาร์ดแวร์สามารถปรับให้เข้ากับโมเดลที่พัฒนาต่อไปได้ดีขึ้น และเร่งการนำเทคโนโลยีใหม่มาใช้

ปัจจุบันชุดชิป MTIA ประกอบด้วย:

MTIA 300: ปรับแต่งสำหรับโมเดลการจัดอันดับและคำแนะนำในตอนแรก สถาปัตยกรรมพื้นฐานของมันวางรากฐานสำหรับชิปที่มุ่งเน้น AI แบบสร้างสรรค์ในภายหลัง ชิปนี้เข้าสู่การผลิตจำนวนมากแล้ว และใช้หลักสำหรับการฝึกอบรมการจัดอันดับและคำแนะนำ
MTIA 400: ด้วยการเพิ่มขึ้นของ AI แบบสร้างสรรค์ MTIA 300 ได้ถูกวนซ้ำอัปเกรดเป็น MTIA 400 ซึ่งในขณะที่ยังคงรองรับเวิร์กโหลดการจัดอันดับและคำแนะนำ ก็ปรับให้เข้ากับโมเดล AI แบบสร้างสรรค์ได้ดีขึ้น MTIA 400 รองรับคลัสเตอร์สเกลอัพแนวตั้งที่ประกอบด้วยชิป 72 ตัว โดยมีประสิทธิภาพการคำนวณที่เทียบเคียงได้กับผลิตภัณฑ์เชิงพาณิชย์หลัก ชิปนี้ผ่านการทดสอบในห้องปฏิบัติการแล้ว และกำลังจะถูกปรับใช้ในศูนย์ข้อมูล
MTIA 450: เพื่อตอบสนองต่อความต้องการการอนุมาน AI แบบสร้างสรรค์ที่คาดการณ์ว่าจะเพิ่มขึ้นอย่างรวดเร็ว MTIA 400 ได้ถูกวนซ้ำเพิ่มเติมเป็น MTIA 450 และได้รับการปรับแต่งเฉพาะทาง เนื่องจากแบนด์วิธ HBM เป็นปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพการอนุมาน AI แบบสร้างสรรค์ แบนด์วิธ HBM ของ MTIA 450 จึงเพิ่มขึ้นเป็นสองเท่าของ MTIA 400 ในเวลาเดียวกัน Meta ได้เปิดตัวรูปแบบข้อมูลความแม่นยำต่ำที่ออกแบบร่วมกันสำหรับเวิร์กโหลดการอนุมาน MTIA 450 วางแผนจะปรับใช้ในวงกว้างในช่วงต้นปี 2027
MTIA 500: มุ่งเน้นการอนุมาน AI แบบสร้างสรรค์อย่างต่อเนื่อง แบนด์วิธ HBM ของ MTIA 500 เพิ่มขึ้นอีก 50% จาก MTIA 450 และมีการสร้างสรรค์รูปแบบข้อมูลความแม่นยำต่ำเพิ่มเติม MTIA 500 วางแผนจะปรับใช้ในวงกว้างในปี 2027

สอง. การวนซ้ำอัปเกรดของชิป MTIA

จาก MTIA 300 ถึง MTIA 500 แบนด์วิธ HBM เพิ่มขึ้นเป็น 4.5 เท่าของเดิม กำลังการคำนวณทศนิยม (จากความแม่นยำ MX8 ของ MTIA 300 ถึงความแม่นยำ MX4 ของ MTIA 500) เพิ่มขึ้น 25 เท่า รายละเอียดสเปคชิปเฉพาะแสดงอยู่ในตารางด้านล่าง

(หมายเหตุ: ซัพพลายเออร์บางรายอาจรายงานแบนด์วิธแบบสองทิศทาง คูณค่าตัวเลขในตารางด้วย 2 เพื่อให้ได้แบนด์วิธแบบสองทิศทางที่สอดคล้องกัน)

MTIA 300 เนื่องจากมีขนาดคลัสเตอร์สเกลอัพแนวตั้งที่เล็กกว่าและมุ่งเน้นเวิร์กโหลดการจัดอันดับและคำแนะนำเป็นหลัก จึงมีการกำหนดค่าสถาปัตยกรรมเครือข่ายสเกลเอาต์แนวนอนที่มีแบนด์วิธสูงกว่า (200 GB/s)

การเพิ่มขึ้นของประสิทธิภาพอย่างรวดเร็วภายในเวลาไม่ถึงสองปี สะท้อนถึงข้อได้เปรียบของกลยุทธ์การวนซ้ำความเร็วสูงอย่างเต็มที่

สาม. MTIA 300: รุ่นพื้นฐานต้นทุนประสิทธิภาพสูง

เมื่อเทียบกับผลิตภัณฑ์รุ่นก่อนหน้า ข้อได้เปรียบหลักของ MTIA 300 ได้แก่ ชิปเล็ตการ์ดเครือข่ายแบบบูรณาการ เอนจินข้อความเฉพาะสำหรับการถ่ายโอนการสื่อสารแบบรวมกลุ่ม และโมดูลเร่งการสื่อสารแบบรวมกลุ่มแบบรีดิวซ์ที่ใช้การคำนวณใกล้หน่วยความจำ แม้ว่าชิปนี้จะถูกปรับแต่งสำหรับการฝึกอบรมการจัดอันดับและคำแนะนำในตอนแรก แต่ส่วนประกอบการสื่อสารที่มีความหน่วงต่ำและแบนด์วิธสูงเหล่านี้ ให้การสนับสนุนระดับล่างสำหรับชิป MTIA รุ่นต่อๆ ไปในการรองรับการอนุมานและการฝึกอบรม AI แบบสร้างสรรค์อย่างมีประสิทธิภาพ

MTIA 300 ประกอบด้วยชิปเล็ตคำนวณ 1 ตัว ชิปเล็ตเครือข่าย 2 ตัว และกลุ่มสแต็ก HBM หลายกลุ่ม ชิปเล็ตคำนวณแต่ละตัวประกอบด้วยอาร์เรย์ของหน่วยประมวลผล พร้อมทั้งสำรอง PE บางส่วนเพื่อเพิ่มอัตราผลิตชิปที่ดี

แต่ละหน่วยประมวลผลประกอบด้วย:
* คอร์เวกเตอร์ RISC-V สองคอร์
* เอนจินดอตโปรดักต์สำหรับการดำเนินการคูณเมทริกซ์
* หน่วยฟังก์ชันพิเศษสำหรับฟังก์ชันกระตุ้นและการดำเนินการแบบเอลิเมนต์ไวส์
* เอนจินรีดิวซ์สำหรับการดำเนินการสะสมและการสื่อสารระหว่าง PE
* เอนจินการเข้าถึงหน่วยความจำโดยตรงสำหรับการอ่าน/เขียนข้อมูลแคชความเร็วสูงในเครื่อง

สำหรับรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับส่วนประกอบหน่วยประมวลผลข้างต้น โปรดอ้างอิงบทความของ Meta ใน ISCA’25 ชื่อ “Meta’s Second Generation AI Chip: Model-Chip Co-Design and Productionization Experiences”

สี่. MTIA 400: กำลังการคำนวณดิบที่เทียบเคียงกับผลิตภัณฑ์หลัก

ด้วยการเพิ่มขึ้นของ AI แบบสร้างสรรค์ Meta ได้วนซ้ำ MTIA 300 เป็น MTIA 400 ซึ่งในขณะที่รองรับเวิร์กโหลดการจัดอันดับและคำแนะนำ ก็ปรับให้เข้ากับงาน AI แบบสร้างสรรค์ได้ดีขึ้น

MTIA 400 เป็นการอัปเกรดครั้งสำคัญจาก MTIA 300 โดยกำลังการคำนวณทศนิยมความแม่นยำ FP8 เพิ่มขึ้น 400% และแบนด์วิธ HBM เพิ่มขึ้น 51% MTIA 300 มุ่งเน้นที่ต้นทุนประสิทธิภาพสูง ในขณะที่ MTIA 400 เป็นชิป MTIA รุ่นแรกที่ในขณะที่ปรับปรุงต้นทุนให้ดีขึ้น กำลังการคำนวณดิบของมันสามารถเทียบเคียงกับผลิตภัณฑ์เชิงพาณิชย์หลักได้ มันใช้การออกแบบชิปเล็ตคำนวณคู่ ซึ่งเพิ่มความหนาแน่นของกำลังการคำนวณเป็นสองเท่า พร้อมทั้งรองรับความแม่นยำ MX8 และ MX4 รุ่นอัปเกรด ซึ่งเป็นรูปแบบข้อมูลความแม่นยำต่ำสองรูปแบบที่สำคัญสำหรับการอนุมาน AI แบบสร้างสรรค์ที่มีประสิทธิภาพ คลัสเตอร์สเกลอัพแนวตั้งที่สมบูรณ์ประกอบด้วยชิป MTIA 400 จำนวน 72 ตัวที่เชื่อมต่อผ่านแบ็กเพลนแบบสวิตช์ภายในตู้แร็คเดียว

Meta 2 ปี 4 รุ่น MTIA: ตัวเร่ง AI สถาปัตยกรรม RISC-V ออกแบบแบบโมดูลาร์ เพิ่มพลังประมวลผล 25 เท่าสำหรับการอนุมาน AI แบบสร้างสรรค์
คลัสเตอร์สเกลอัพแนวตั้งที่ประกอบด้วยชิป MTIA 400 จำนวน 72 ตัวภายในตู้แร็คเดียว พร้อมด้วยอุปกรณ์เครือข่ายที่เกี่ยวข้องและตู้แร็คทำความเย็นด้วยของเหลวแบบช่วยอากาศ MTIA 400 ยังรองรับโซลูชันทำความเย็นด้วยของเหลวระดับห้องเซิร์ฟเวอร์ แต่การทำความเย็นด้วยของเหลวแบบช่วยอากาศสามารถปรับใช้ได้อย่างรวดเร็วในศูนย์ข้อมูลแบบดั้งเดิม

ห้า. MTIA 450: การปรับแต่งเฉพาะทางสำหรับการอนุมาน AI แบบสร้างสรรค์

เพื่อตอบสนองต่อความต้องการการอนุมาน AI แบบสร้างสรรค์ที่เพิ่มขึ้นอย่างรวดเร็ว Meta ได้เปิดตัว MTIA 450 บนพื้นฐานของ MTIA 400 และเสริมความแข็งแกร่งจากสี่มิติหลัก:

แบนด์วิธหน่วยความจำเพิ่มเป็นสองเท่า: แบนด์วิธ HBM เพิ่มขึ้นเป็นสองเท่าจากรุ่นก่อนหน้า ซึ่งเร่งกระบวนการถอดรหัสโมเดล (decoding) อย่างมีนัยสำคัญ
กำลังการคำนวณความแม่นยำต่ำเพิ่มขึ้นอย่างก้าวกระโดด: กำลังการคำนวณภายใต้ความแม่นย

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25662