เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%

9 hours ago • ข่าวสารอุตสาหกรรม AI • 19 views

คำสำคัญ: TPU รุ่นที่แปด, TPU 8t/8i, AI Agent, การฝึกโมเดล, กำลังประมวลผลสำหรับการอนุมาน

เมื่อเข้าสู่ยุคของ AI Agent โมเดลจำเป็นต้องสามารถให้เหตุผลเชิงตรรกะหลายขั้นตอน ดำเนินการเวิร์กโฟลว์ที่ซับซ้อนได้ด้วยตนเอง และเรียนรู้ด้วยตนเองในวงจรที่ต่อเนื่อง ซึ่งสร้างความต้องการแบบวนซ้ำใหม่ให้กับสถาปัตยกรรมกำลังประมวลผลพื้นฐาน

ในงาน Google Cloud Next ที่จัดขึ้นไม่นานมานี้ Google ได้เปิดตัว Tensor Processing Unit (TPU) รุ่นที่แปดที่ออกแบบเองอย่างเป็นทางการ นวัตกรรมหลักของการเปิดตัวครั้งนี้อยู่ที่การนำเสนอชิปเฉพาะทางสองรุ่นที่มีหน้าที่ชัดเจน: TPU 8t และ TPU 8i ชิปทั้งสองรุ่นนี้ได้รับการออกแบบร่วมกันโดย Google และ DeepMind โดยมีเป้าหมายเพื่อตอบโจทย์สองสถานการณ์หลักอย่างแม่นยำ นั่นคือการฝึกโมเดลขนาดใหญ่และการอนุมานขนาดใหญ่

TPU รุ่นที่แปดใช้สถาปัตยกรรมพื้นฐานใหม่ เช่น เครือข่าย Virgo และโทโพโลยี Boardfly ซึ่งช่วยให้ประสิทธิภาพหลักก้าวกระโดดขึ้น โดย กำลังประมวลผลสำหรับการฝึกของคลัสเตอร์ TPU 8t สูงถึงเกือบ 3 เท่าของรุ่นก่อนหน้า ในขณะที่ประสิทธิภาพต่อราคาสำหรับการอนุมานของ TPU 8i เพิ่มขึ้น 80% และประสิทธิภาพการใช้พลังงานโดยรวมเพิ่มขึ้นเป็นสองเท่าจากรุ่นก่อน ชิปชุดนี้ได้รับการปรับให้เหมาะสมแบบครบสแต็กร่วมกันตั้งแต่ฮาร์ดแวร์ เครือข่ายเชื่อมต่อ ไปจนถึงศูนย์ข้อมูล และรองรับเฟรมเวิร์กการพัฒนา AI หลักต่างๆ เช่น JAX, MaxText, PyTorch, SGLang และ vLLM โดยธรรมชาติ ไม่เพียงแต่ให้การสนับสนุนกำลังประมวลผลแก่โมเดลขนาดใหญ่ล้ำสมัยอย่าง Gemini เท่านั้น แต่ยังสร้างโครงสร้างพื้นฐานเฉพาะสำหรับโหลดงานการทำงานร่วมกันของเอเจนต์หลายตัวอีกด้วย

เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%

อย่างไรก็ตาม เมื่อเราพิจารณาข้อมูลทางวิศวกรรมที่น่าประทับใจเหล่านี้ ปัญหาอุตสาหกรรมที่ลึกซึ้งยิ่งขึ้นก็ปรากฏขึ้น: การเชี่ยวชาญเฉพาะทางขั้นสูงสุดที่ “ตัดเย็บ” ให้เหมาะกับสถาปัตยกรรมโมเดลหลักในปัจจุบันนี้ เป็นทางด่วนสู่เสรีภาพของซูเปอร์คอมพิวเตอร์ AI หรืออาจกลายเป็น “กรงเหล็ก” ที่ขัดขวางนวัตกรรมอัลกอริทึมในอนาคต?

ตัวอย่างเช่น การปรับให้เหมาะสมตามการออกแบบทางกายภาพเฉพาะ (เช่น โทโพโลยี Boardfly และการปรับขนาด KV cache แบบ SRAM ขนาดใหญ่) โดยพื้นฐานแล้วเป็นการเดิมพันที่แพงสำหรับทิศทางการพัฒนาอัลกอริทึมในปัจจุบัน หาก Transformer หรือโมเดลผู้เชี่ยวชาญแบบผสม (MoE) ไม่ใช่สถาปัตยกรรมหลักอีกต่อไป ประสิทธิภาพที่เหนือกว่าในวันนี้อาจกลายเป็นต้นทุนจมในอนาคตอย่างรวดเร็ว นอกจากนี้ สำหรับระบบโมโนลิธขนาดใหญ่ที่แชร์หน่วยความจำ 2PB ระหว่างชิปเกือบหมื่นตัว แม้ว่าจะสามารถรักษา “เวลากำลังประมวลผลที่มีประสิทธิผล” ให้อยู่ในระดับสูงผ่านกลไกการสลับด้วยแสงขั้นสูงและกลไกความน่าเชื่อถือ แต่เมื่อต้องเผชิญกับข้อกำหนดด้านความสอดคล้องตามมาตรฐานการเงินและความแน่นอนของการลู่เข้าโมเดล ความเสี่ยงของระบบที่อาจเกิดขึ้นจากขนาดทางกายภาพยังคงเป็นดาบแห่งดาโมคลิสที่แขวนอยู่เหนือเสถียรภาพของซูเปอร์คอมพิวเตอร์

จากมุมมองของการต่อสู้แบบพึ่งพาซึ่งกันและกันระหว่างซอฟต์แวร์และฮาร์ดแวร์นี้เอง ทำให้เราสามารถพิจารณาจุดประสงค์เชิงกลยุทธ์ของการเปิดตัวของ Google ครั้งนี้ได้อย่างเยือกเย็นยิ่งขึ้น: นี่ไม่ใช่เพียงการก้าวกระโดดของพารามิเตอร์กำลังประมวลผลอีกครั้ง แต่ยังเป็นความพยายามของ Google ที่จะกำหนดเส้นแบ่งที่รุนแรงที่ทางแยกประวัติศาสตร์ระหว่างเฉพาะทางและอเนกประสงค์ ผ่านการผูกมัดอย่างลึกซึ้งระหว่าง Axion ARM host และซอฟต์แวร์สแต็ก JAX ชิปชุดนี้จะเปิดให้ลูกค้าใช้งานเชิงพาณิชย์อย่างเป็นทางการภายในปีนี้ การทดสอบที่แท้จริงไม่ได้อยู่ที่การทดสอบประสิทธิภาพในห้องปฏิบัติการ แต่อยู่ที่ว่าในอีกหลายปีข้างหน้าที่สถาปัตยกรรมโมเดลเปลี่ยนแปลงอย่างรวดเร็ว จะสามารถรับมือกับการเปลี่ยนแปลงอย่างกะทันหันของอัลกอริทึมแต่ละครั้งด้วยรูปร่างที่ถูกตรึงไว้ทางกายภาพได้หรือไม่

1. การออกแบบชิปคู่ที่ตอบโจทย์ความต้องการของยุคสมัย

วงจรการวิจัยและพัฒนาฮาร์ดแวร์ยาวนานกว่าวงจรการพัฒนาซอฟต์แวร์มาก การวิจัยและพัฒนา TPU แต่ละรุ่นจำเป็นต้องคาดการณ์แนวโน้มทางเทคโนโลยีเมื่อผลิตภัณฑ์ออกสู่ตลาด เมื่อหลายปีก่อน Google ได้คาดการณ์แล้วว่าเมื่อโมเดลขนาดใหญ่ถูกนำไปใช้ในวงกว้าง ความต้องการกำลังประมวลผลสำหรับการอนุมานของลูกค้าจะเพิ่มขึ้นอย่างต่อเนื่อง และเมื่อ AI Agent เติบโตขึ้น อุตสาหกรรมจำเป็นต้องมีชิปเฉพาะทางที่ปรับแต่งลึกสำหรับงานฝึกและงานอนุมานแยกจากกัน

TPU 8t มีความเชี่ยวชาญในการรับภาระงานฝึกขนาดใหญ่ที่ใช้กำลังประมวลผลสูง โดยได้รับการออกแบบให้มีปริมาณการประมวลผลและแบนด์วิธการขยายในแนวนอนที่แข็งแกร่งกว่า
TPU 8i มาพร้อมกับแบนด์วิธหน่วยความจำที่สูงกว่า เพื่อรองรับงานอนุมานที่ไวต่อความหน่วงสูง การออกแบบนี้มีความสำคัญ เนื่องจากการโต้ตอบระหว่างเอเจนต์จำนวนมากจะขยายการสูญเสียประสิทธิภาพกำลังประมวลผลเพียงเล็กน้อยให้ใหญ่ขึ้น

สิ่งสำคัญคือ ชิปทั้งสองรุ่นสามารถรันโหลดงานประเภทต่างๆ ได้ และการแบ่งงานตามความเชี่ยวชาญมีจุดมุ่งหมายเพื่อปลดล็อกประสิทธิภาพและประสิทธิภาพที่โดดเด่นยิ่งขึ้น

2. TPU 8t: แกนกลางกำลังประมวลผลสำหรับการฝึก

TPU 8t มีเป้าหมายเพื่อย่นระยะเวลาการวิจัยและพัฒนาโมเดลขนาดใหญ่ล้ำสมัยจากหลายเดือนเหลือเพียงไม่กี่สัปดาห์ โดยทำได้ผ่านการสร้างสมดุลระหว่างปริมาณการประมวลผลขั้นสูงสุด หน่วยความจำร่วม และแบนด์วิธระหว่างชิป พร้อมทั้งคำนึงถึงประสิทธิภาพการใช้พลังงานที่ดีที่สุดและระยะเวลาการทำงานของกำลังประมวลผลที่มีประสิทธิผล เพื่อให้ประสิทธิภาพของระบบก้าวกระโดด

ความสามารถในการขยายขนาดใหญ่พิเศษ: TPU 8t ซูเปอร์คลัสเตอร์เดียวสามารถขยายได้สูงสุดถึง 9,600 ชิป พร้อมหน่วยความจำแบนด์วิธสูงร่วมกัน 2PB โดยแบนด์วิธระหว่างชิปเป็นสองเท่าของรุ่นก่อน สถาปัตยกรรมนี้สามารถให้กำลังประมวลผลสูงถึง 121 ExaFlops ทำให้โมเดลที่ซับซ้อนที่สุดสามารถเรียกใช้พูลหน่วยความจำขนาดใหญ่พิเศษที่เป็นหนึ่งเดียวกันได้
อัตราการใช้ทรัพยากรขั้นสูงสุด: TPU 8t เพิ่มความเร็วในการเข้าถึงที่เก็บข้อมูล 10 เท่า ร่วมกับเทคโนโลยีการถ่ายโอนข้อมูลโดยตรงของ TPU ซึ่งสามารถโหลดข้อมูลลงใน TPU โดยตรง เพื่อรับประกันว่าอัตราการใช้ทรัพยากรของระบบแบบครบวงจรจะอยู่ในระดับที่ดีที่สุด
ประสิทธิภาพการขยายแบบเกือบเชิงเส้น: เครือข่าย Virgo ใหม่ ร่วมกับซอฟต์แวร์สแต็ก JAX และ Pathways ทำให้ TPU 8t สามารถขยายได้เกือบเชิงเส้นในคลัสเตอร์เชิงตรรกะเดียวที่มีชิปเกือบล้านตัว

3. สถาปัตยกรรมเครือข่ายและความน่าเชื่อถือ: กุญแจสำคัญในการสนับสนุนการฝึกโมเดลที่มีพารามิเตอร์ล้านล้าน

เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%
ภาพ: แผนผังสถาปัตยกรรมเครือข่ายสวิตช์ศูนย์ข้อมูลขนาดใหญ่พิเศษของ Google

เพื่อตอบสนองความต้องการที่เข้มงวดสำหรับการสื่อสารที่มีความหน่วงต่ำและแบนด์วิธสูงสำหรับการฝึกโมเดลระดับพารามิเตอร์ล้านล้าน Google ได้สร้างเครือข่ายสวิตช์ศูนย์ข้อมูลแบบหลายชั้นที่ประกอบด้วย เครือข่าย Virgo, เครือข่าย Jupiter และเครือข่ายระยะไกลทั่วโลกแบบกระจาย

เครือข่าย Virgo: เป็นแกนกลาง ใช้สถาปัตยกรรมสวิตช์แบบไม่บล็อกสองชั้น สร้างเมทริกซ์สวิตช์ที่มีความน่าเชื่อถือสูงและยืดหยุ่นผ่านระนาบอิสระ เชื่อมต่อแร็คตัวเร่งความเร็วแต่ละตัวโดยตรง และได้รับการปรับให้เหมาะสมสำหรับความต้องการการสื่อสารของโหลดงานการฝึก AI โดยเฉพาะ
เครือข่าย Jupiter: มี Apollo optical circuit switch และ aggregation block เป็นแกนกลาง รับผิดชอบในการรวบรวมและจัดกำหนดการการไหลของข้อมูลระหว่างแร็คอย่างมีประสิทธิภาพ
คุณลักษณะสำคัญ: สถาปัตยกรรมโดยรวมนี้มีคุณลักษณะสามประการ ได้แก่ สวิตช์แบบไม่บล็อกสองชั้น, เครือข่ายยืดหยุ่นที่มีความน่าเชื่อถือสูงบนพื้นฐานของระนาบอิสระ และ รองรับการขยายหลายศูนย์ข้อมูล และสุดท้ายเชื่อมต่อกับเครือข่ายระยะไกลทั่วโลกแบบกระจาย เพื่อให้สามารถจัดกำหนดการและเชื่อมต่อทรัพยากรกำลังประมวลผลข้ามภูมิภาคเป็นหนึ่งเดียว

เหนือกว่าค่าสูงสุด: บรรลุอัตราการใช้กำลังประมวลผลที่มีประสิทธิผลเกิน 97%

นอกจากจะให้กำลังประมวลผลดิบแล้ว TPU 8t ยังบรรลุ อัตราการใช้กำลังประมวลผลที่มีประสิทธิผลเกิน 97% ผ่านชุดเทคโนโลยีความน่าเชื่อถือ ความพร้อมใช้งาน และความสามารถในการบำรุงรักษา (RAS) ที่สมบูรณ์ ตัวชี้วัดนี้วัดระยะเวลาการทำงานที่ชิปสร้างมูลค่าให้กับการฝึก AI จริงๆ

เทคโนโลยีที่เกี่ยวข้องรวมถึง:
* Telemetry แบบเรียลไทม์ขนาดใหญ่: ตรวจสอบสถานะการทำงานของชิปหลายหมื่นตัวอย่างต่อเนื่อง
* การจัดการข้อผิดพลาดอัตโนมัติ: ตรวจจับลิงก์การเชื่อมต่อที่ผิดพลาดโดยอัตโนมัติ และส่งข้อมูลโดยอ้อมโดยไม่ขัดจังหวะงานฝึก
* การสลับเส้นทางด้วยแสง: ระบบสามารถหลีกเลี่ยงข้อผิดพลาดฮาร์ดแวร์และกำหนดค่าเส้นทางเครือข่ายใหม่โดยอัตโนมัติโดยไม่ต้องมีการแทรกแซงของมนุษย์

ในกระบวนการฝึกโมเดลล้ำสมัยที่ยาวนานหลายสัปดาห์หรือหลายเดือน ข้อผิดพลาดฮาร์ดแวร์ ความหน่วงของเครือข่าย หรือการรีสตาร์ทจากจุดตรวจสอบ (checkpoint) จะใช้เวลาการฝึกของคลัสเตอร์อันมีค่า ดังนั้น ทุกเปอร์เซ็นต์ที่อัตราการใช้กำลังประมวลผลที่มีประสิทธิผลเพิ่มขึ้น สามารถประหยัดเวลาได้หลายวันสำหรับการฝึกจริง

เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%
ภาพ: การเปรียบเทียบข้อมูลจำเพาะหลักระหว่าง TPU Ironwood รุ่นที่เจ็ดและ TPU 8t รุ่นที่แปด

ภาพด้านบนแสดงให้เห็นอย่างชัดเจนถึงการอัปเกรดสถาปัตยกรรมโดยรวมจากชิปฝึกรุ่นที่เจ็ดสู่รุ่นที่แปด ขนาดคลัสเตอร์เดียว (Pod) ของ TPU 8t เพิ่มขึ้นเล็กน้อยจาก 9,216 ชิปเป็น 9,600 ชิป แต่กำลังประมวลผล FP4 ต่อคลัสเตอร์เดียวเพิ่มขึ้นจาก 42.5 EFLOPs เป็น 121 EFLOPs ซึ่งเป็นการเพิ่มประสิทธิภาพเกือบ 3 เท่า

ในขณะเดียวกัน แบนด์วิธการสื่อสารได้รับการปรับปรุงอย่างมีนัยสำคัญ:
* แบนด์วิธการขยายแบบสองทิศทางต่อชิปเพิ่มเป็นสองเท่าเป็น 19.2 Tb/s
* แบนด์วิธเครือข่ายการขยายในแนวนอนเพิ่มจาก 100 Gb/s เป็น 400 Gb/s

การเพิ่มขึ้นอย่างมากของกำลังประมวลผลและแบนด์วิธการสื่อสารพร้อมกัน ไม่เพียงแต่ทำให้ TPU 8t สามารถรับโหลดงานการฝึกโมเดลพารามิเตอร์ล้านล้านได้เท่านั้น แต่ที่สำคัญกว่านั้นคือแก้ปัญหาคอขวดในการสื่อสารในการฝึกคลัสเตอร์ขนาดใหญ่พิเศษ ซึ่งให้การสนับสนุนที่สำคัญสำหรับการขยายแบบเกือบเชิงเส้นและการย่นระยะเวลาการวิจัยและพัฒนาโมเดลล้ำสมัย

4. TPU 8i: เอนจินสำหรับการอนุมานที่ออกแบบสำหรับยุคเอเจนต์

ในยุคเอเจนต์ งานที่ซับซ้อนมักต้องการให้เอเจนต์เฉพาะทางหลายตัวทำงานร่วมกันในรูปแบบคลัสเตอร์ TPU 8i ออกแบบมาเพื่อรองรับเวิร์กโฟลว์ที่ซับซ้อนและวนซ้ำของเอเจนต์หลายตัวประเภทนี้ ผ่านนวัตกรรมสถาปัตยกรรมหลักสี่ประการ โดยมีเป้าหมายเพื่อขจัดความหน่วงจากการรอคอยในการอนุมานของเอเจนต์:

ทำลายกำแพงหน่วยความจำ: ติดตั้งหน่วยความจำแบนด์วิธสูง (HBM) 288GB และหน่วยความจำเข้าถึงโดยสุ่มแบบสแตติกบนชิป (SRAM) 384MB ซึ่งมีความจุเป็น 3 เท่าของรุ่นก่อนหน้า สามารถเก็บชุดงานที่ใช้งานอยู่ของโมเดลไว้ในชิปได้ทั้งหมด และหลีกเลี่ยงการที่โปรเซสเซอร์ไม่ได้ใช้งานเนื่องจากเข้าถึงหน่วยความจำภายนอก
โปรเซสเซอร์ Axion เพิ่มประสิทธิภาพการใช้พลังงาน: จำนวนโฮสต์ CPU ทางกายภาพที่ติดตั้งในเซิร์ฟเวอร์เดียวเพิ่มเป็นสองเท่า โดยใช้โปรเซสเซอร์ ARM สถาปัตยกรรม Axion ที่ Google ออกแบบเอง บรรลุการแยกงานผ่านสถาปัตยกรรม Non-Uniform Memory Access (NUMA) และปรับให้เหมาะสมประสิทธิภาพและประสิทธิภาพการใช้พลังงานของทั้งระบบ
ปรับให้เหมาะสมโมเดลผู้เชี่ยวชาญแบบผสม: สำหรับโมเดล MoE แบนด์วิธการเชื่อมต่อระหว่างชิปเพิ่มเป็นสองเท่าเป็น 19.2 Tb/s สถาปัตยกรรมโทโพโลยี Boardfly ใหม่ลดเส้นผ่านศูนย์กลางสูงสุดของเครือข่ายลงกว่า 50% เพื่อให้แน่ใจว่าระบบสามารถทำงานร่วมกันในสถานะความหน่วงต่ำ
ขจัดความหน่วงในการรัน: เอนจินเร่งความเร็วการรวบรวมข้อมูลบนชิปแบบใหม่สามารถถ่ายโอนงานคำนวณระดับโลกออกไป ลดความหน่วงในการสื่อสารบนชิปได้สูงสุด 5 เท่า และลดการสะดุดในการรันให้น้อยที่สุด

นวัตกรรมทางเทคโนโลยีเหล่านี้ทำให้ ประสิทธิภาพกำลังประมวลผลต่อดอลลาร์ของ TPU 8i เพิ่มขึ้น 80% จากรุ่นก่อนหน้า ซึ่งหมายความว่าธุรกิจสามารถรองรับขนาดธุรกิจของผู้ใช้ได้เกือบสองเท่าในต้นทุนที่เท่ากัน

เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%
ภาพ: การเปรียบเทียบข้อมูลจำเพาะหลักระหว่าง Ironwood รุ่นที่เจ็ดและ TPU 8i รุ่นที่แปด

สำหรับสถานการณ์การอนุมานขนาดใหญ่และความหน่วงต่ำ TPU 8i ได้รับการอัปเกรดอย่างครอบคลุม:
* ขนาดคลัสเตอร์เพิ่มขึ้นอย่างมากจาก 256 ชิปเป็น 1,152 ชิป
* กำลังประมวลผล FP8 ต่อคลัสเตอร์เดียวเพิ่มจาก 1.2 EFLOPs เป็น 11.6 EFLOPs เพิ่มประสิทธิภาพเกือบ 10 เท่า
* ความจุ HBM รวมต่อคลัสเตอร์เดียวเพิ่มจาก 49.2TB เป็น 331.8TB เพิ่มขึ้นประมาณ 6.7 เท่า
* แบนด์วิธการขยายแบบสองทิศทางต่อชิปเพิ่มเป็นสองเท่าเป็น 19.2 Tb/s

การอัปเกรดเหล่านี้ไม่เพียงแต่รองรับการแคชคีย์-เวลูของโมเดลขนาดใหญ่และการอนุมานพร้อมกันของเอเจนต์หลายตัวได้มากขึ้นเท่านั้น แต่ยังลดความหน่วงในการอนุมานอย่างมีนัยสำคัญผ่านการเพิ่มขึ้นพร้อมกันของความจุหน่วยความจำและแบนด์วิธ และแก้ปัญหาคอขวดด้านกำลังประมวลผลและหน่วยความจำที่เกิดจากการโต้ตอบหลายรอบของเอเจนต์

เปิดตัว TPU รุ่นที่ 8 ของ Google อย่างน่าตื่นตะลึง: TPU 8t/8i ตอบโจทย์ยุคเอเจนต์อัจฉริยะ AI พร้อมเพิ่มพลังการฝึกฝน 3 เท่า และประสิทธิภาพการอนุมานพุ่งสูงขึ้น 80%
ภาพ: สถาปัตยกรรมโทโพโลยีแบบเชื่อมต่อทั้งหมดแบบแบ่งชั้น Boardfly ที่ใช้ใน TPU 8i

TPU 8i ใช้ โทโพโลยีแบบเชื่อมต่อทั้งหมดแบบแบ่งชั้น Boardfly ซึ่งปรับให้เหมาะสมสำหรับการอนุมานความหน่วงต่ำ:
* ชั้นแรก: TPU 4 ตัวบนบอร์ดเดียวเชื่อมต่อกันทั้งหมด
* ชั้นที่สอง: เชื่อมต่อกันทั้งหมดภายในกลุ่มแร็คที่ประกอบด้วยบอร์ด 8 แผ่น
* ชั้นที่สาม: กลุ่มแร็ค 36 กลุ่มประกอบเป็นคลัสเตอร์เต็มรูปแบบที่มีชิป 1,152 ตัว

การออกแบบนี้ลดเส้นผ่านศูนย์กลางของเครือข่ายลงอย่างมาก ลดจำนวนฮอปในการสื่อสารข้ามโหนด ลดความหน่วงลงกว่า 50% ซึ่งเหมาะอย่างยิ่งกับความต้องการการสื่อสารสำหรับการโต้ตอบพร้อมกันของเอเจนต์หลายตัวและโมเดล MoE ในขณะเดียวกันก็รับประกันประสิทธิภาพการขยายแบบเกือบเชิงเส้นภายใต้คลัสเตอร์ขนาดใหญ่

ในฐานะผลงานชิ้นเอกของเทคโนโลยีซูเปอร์คอมพิวเตอร์แบบกำหนดเองของ Google ที่สะสมมาสิบปี TPU รุ่นที่แปดไม่เพียงแต่เป็นจุดสังเกตของการพัฒนาทางเทคโนโลยีเท่านั้น แต่ยังเป็นรากฐานสำหรับยุค AI Agent อีกด้วย มันจะให้การสนับสนุนกำลังประมวลผลที่ทรงพลังสำหรับการวิจัยและพัฒนาโมเดลล้ำสมัย การทำงานร่วมกันของเอเจนต์หลายตัว และงานอนุมานที่ซับซ้อน โดยมีเป้าหมายเพื่อช่วยให้ธุรกิจและสถาบันวิจัยก้าวข้ามขอบเขตนวัตกรรมที่มีอยู่ และร่วมกันเปิดบทใหม่ของ AI Agent

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง