
ในกระบวนการพัฒนาปัญญาประดิษฐ์ เรายังคงอยู่ในช่วงการเติบโตที่ไร้การควบคุม: ขนาดคือทุกสิ่ง
กลยุทธ์นี้ได้ผลจริง จากการ์ดคลัสเตอร์หลายพันใบไปจนถึงหลายหมื่นใบ การเติบโตแบบทวีคูณของขนาดพลังประมวลผลสนับสนุนวิวัฒนาการอย่างรวดเร็วของโมเดลขนาดใหญ่ตั้งแต่ GPT-4 ไปจนถึง DeepSeek V4 และ GLM-5
อย่างไรก็ตาม เรามักมองข้ามความจริงข้อหนึ่ง: เมื่อขนาดฮาร์ดแวร์ GPU ถึงจุดวิกฤต ลิงก์เครือข่ายที่เชื่อมต่อพลังประมวลผลเหล่านี้จะกลายเป็นคอขวดด้านประสิทธิภาพที่ไม่อาจมองข้าม
เมื่อวันที่ 5 พฤษภาคม 2026 OpenAI ร่วมกับยักษ์ใหญ่ห้าราย ได้แก่ NVIDIA, AMD, Intel, Microsoft และ Broadcom ผ่านโครงการ Open Compute Project (OCP) ได้ประกาศโปรโตคอล MRC (Multipath Reliable Connection) อย่างเป็นทางการสู่ทั้งอุตสาหกรรม นี่คือโปรโตคอลเครือข่ายที่ออกแบบมาโดยเฉพาะสำหรับคลัสเตอร์ AI ขนาดใหญ่พิเศษ ปัจจุบันได้ถูกนำไปใช้ในคลัสเตอร์ซูเปอร์คอมพิวเตอร์ NVIDIA GB200 ที่ใหญ่ที่สุดของ OpenAI เพื่อฝึกฝนโมเดล前沿 เช่น ChatGPT

- ลิงก์บล็อกเทคนิค: https://openai.com/index/mrc-supercomputer-networking/
แนวคิดหลักของ MRC คือ: กระจายการส่งข้อมูลไปยังหลายร้อยเส้นทางเพื่อส่งพร้อมกัน สามารถหลีกเลี่ยงความล้มเหลวของลิงก์ได้ในระดับไมโครวินาที แก้ปัญหาคอขวดการสื่อสารเครือข่ายของคลัสเตอร์ GPU ขนาดใหญ่ได้อย่างรุนแรง
และเมื่อเร็วๆ นี้ Zhipu AI ในคลัสเตอร์การผลิตออนไลน์ GLM-5.1 ได้ดำเนินการปรับใช้สถาปัตยกรรมเครือข่ายรุ่นใหม่ ZCube ในวงกว้างเป็นรายแรก
ZCube ถูกตีพิมพ์ในการประชุมระดับสูงด้านเครือข่าย ACM SIGCOMM 2025 และได้รับการประเมินว่า “เปลี่ยนแปลงวิธีที่เราคิดและเข้าใจเครือข่ายอย่างมีนัยสำคัญ” นี่เป็นครั้งแรกที่เทคโนโลยีนี้ถูกนำไปใช้ในคลัสเตอร์การผลิตเชิงอนุมานในวงกว้าง Zhipu AI ร่วมมือกับ Yuxun Network ในการอัปเกรดและปรับปรุงสถาปัตยกรรมเครือข่าย โดยการปรับปรุงสถาปัตยกรรมเครือข่ายใช้สวิตช์ของ Ruijie Networks

- ชื่อบทความ: From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training
- ลิงก์บทความ: https://dl.acm.org/doi/epdf/10.1145/3718958.3750503
- บล็อกเทคนิค: https://z.ai/blog/zcube
ภายใต้สถาปัตยกรรมเครือข่ายรุ่นใหม่ โดยไม่ต้องเพิ่ม GPU ใดๆ และไม่ต้องแก้ไขโค้ดแอปพลิเคชันใดๆ ปริมาณงานอนุมานของคลัสเตอร์เพิ่มขึ้น 15% ความหน่วงท้ายของการตอบสนอง Token แรก (TTFT P99) ลดลง 40.6% และ ต้นทุนฮาร์ดแวร์ของสวิตช์และโมดูลออปติกลดลงหนึ่งในสาม
โดยไม่ต้องเพิ่ม GPU สักตัว พลังประมวลผลเพิ่มขึ้น 15% ทันที บางที นอกเหนือจากการขยายขนาด GPU แล้ว เครือข่ายอาจกลายเป็นสนามรบหลักถัดไปของโครงสร้างพื้นฐาน AI ขนาดใหญ่พิเศษ
การตีความเทคโนโลยี ZCube: กำจัดความแออัดจากระดับสถาปัตยกรรม
ปริมาณการรับส่งข้อมูลในยุคอนุมาน แตกต่างจากยุคฝึกฝนอย่างสิ้นเชิง
ปริมาณการรับส่งข้อมูลในศูนย์ข้อมูลยุคอินเทอร์เน็ตแบบดั้งเดิมมีลักษณะ “สม่ำเสมอทางสถิติ” สถาปัตยกรรม Fat-Tree / Clos ที่ศูนย์ข้อมูลนิยมใช้ถูกออกแบบตามสมมติฐานนี้: ขยายขนาดโดยการซ้อนสวิตช์หลายชั้น อาศัย ECMP (Equal-Cost Multi-Path) ในการกระจายปริมาณการรับส่งข้อมูลระหว่างหลายเส้นทาง ซึ่งได้ผลดี คลัสเตอร์ฝึกฝน AI ก็ใช้สถาปัตยกรรมนี้เป็นหลักเช่นกัน เนื่องจากรูปแบบการสื่อสารในขั้นตอนการฝึกฝนค่อนข้างคงที่และเป็นระเบียบ
แต่การอนุมานโมเดลขนาดใหญ่ได้นำเสนอรูปแบบปริมาณการรับส่งข้อมูลแบบใหม่ ด้วยการแยก部署 Prefill (ประมวลผลบริบทอินพุตของผู้ใช้) และ Decode (สร้างเอาต์พุตทีละ Token) กลายเป็นกระแสหลัก การส่งข้อมูลภายในคลัสเตอร์จึงแสดงความไม่สมมาตรแบบไดนามิกสูง โหนด Prefill ประมวลผลบริบทอินพุต ส่วนโหนด Decode รับผิดชอบสร้าง Token อย่างต่อเนื่อง ทั้งสองประเภทโหนดต้องส่ง KV Cache บ่อยครั้ง ความยาวบริบทของคำขอที่แตกต่างกันอาจแตกต่างกันหลายสิบเท่า เวลาประมวลผลก็เปลี่ยนแปลงตามไปด้วย ทิศทางการไหลของข้อมูล KV Cache ระหว่าง GPU แทบไม่มีกฎเกณฑ์

ในสถาปัตยกรรม ROFT การ์ดเครือข่ายที่แตกต่างกันบนเครื่องเดียวกันมีภาระการส่ง KV Cache แตกต่างกันมาก
ในคลัสเตอร์ที่ใช้สถาปัตยกรรม ROFT แบบดั้งเดิม การ์ดเครือข่ายที่แตกต่างกันบนเครื่องเดียวกันมีภาระการส่ง KV Cache แตกต่างกันมาก ความไม่สมมาตรระหว่างต้นทาง-ปลายทาง นี้ทำให้การแมป rail ของ ROFT ไม่เทียบเท่ากับการสมดุลโหลดตามธรรมชาติอีกต่อไป กลับง่ายต่อการผลักดันปริมาณการรับส่งข้อมูลไปยังสวิตช์ Leaf และลิงก์จำนวนน้อย

แผนภาพความแตกต่างของภาระการส่ง KV Cache ของการ์ดเครือข่ายที่แตกต่างกันบนเครื่องเดียวกัน
รากเหง้าของปัญหาคือ สถาปัตยกรรม Clos / ROFT ก่อให้เกิดความแออัดชนิดพิเศษสำหรับปริมาณการรับส่งข้อมูลอนุมาน Zhipu AI ในรายงานเทคนิคได้แยกแยะอย่างชัดเจนเป็นสองประเภท:
- ความแออัดที่หลีกเลี่ยงไม่ได้: เช่น GPU หลายตัวส่งข้อมูลไปยังปลายทางเดียวกันพร้อมกัน ทำให้เกิดการแข่งขันบนลิงก์สุดท้ายอย่างหลีกเลี่ยงไม่ได้ ความแออัดประเภทนี้ถูกกำหนดโดยกฎฟิสิกส์ มักอาศัยกลไกการควบคุมความแออัด การปรับรูปร่างปริมาณการรับส่งข้อมูล ฯลฯ เพื่อบรรเทา
- ความแออัดที่หลีกเลี่ยงได้: เกิดจากโครงสร้างโทโพโลยีและวิธีการแมปปริมาณการรับส่งข้อมูล ปริมาณการรับส่งข้อมูลถูกผลักดันโดยธรรมชาติของความสัมพันธ์โทโพโลยีไปยังสวิตช์และลิงก์เดียวกันไม่กี่ตัว แม้แบนด์วิธรวมจะเพียงพอก็เกิดจุดร้อนเฉพาะที่ คิวเอาต์พุตบางส่วนของสวิตช์ Leaf บางตัวมีความลึกสูงอย่างต่อเนื่อง กระตุ้น PFC (Priority Flow Control) backpressure บ่อยครั้ง ทำให้ความแออัดกระจายจากเฉพาะที่ไปยังทั้งลิงก์ ขยายความหน่วงท้ายและลดปริมาณงานโดยรวม สาระสำคัญของความแออัดประเภทนี้คือปัญหาการออกแบบสถาปัตยกรรม ซึ่งไม่สามารถแก้ไขได้ด้วยการปรับพารามิเตอร์หรือการปรับโปรโตคอลให้เหมาะสม

แผนภาพความแออัดของเครือข่ายสองประเภท
ในอดีต แนวทางหลักของอุตสาหกรรมในการรับมือกับความแออัดของเครือข่ายเน้นที่ชั้นโปรโตคอล: การกำหนดเส้นทางแบบปรับตัว (adaptive routing), การพ่นแพ็กเก็ต (packet spraying) และแม้แต่ MRC ที่ OpenAI เพิ่งเผยแพร่ โดยพื้นฐานแล้วเป็นการแก้ไขหรือหลีกเลี่ยงหลังจากเกิดความแออัด
ZCube เลือก กำจัดสาเหตุของความแออัดประเภทที่สองจากระดับสถาปัตยกรรม ทำให้ “สิ่งที่ไม่ควรเกิดขึ้นก็ไม่เกิดขึ้น”
ตรรกะการออกแบบสามชั้นของ ZCube
จากแผนภาพสถาปัตยกรรมเครือข่าย ZCube สถาปัตยกรรมนี้打破了แนวคิดการจัดกลุ่มเครือข่ายแบบดั้งเดิมของสถาปัตยกรรม Clos ที่ซ้อนสวิตช์เป็นชั้นๆ ออกแบบวิธีการเชื่อมต่อ GPU server แบบแบนราบโดยสมบูรณ์

สถาปัตยกรรม ZCube เมื่อเทียบกับสถาปัตยกรรม ROFT สามารถหลีกเลี่ยงความแออัดของเครือข่ายเชิงโครงสร้างได้อย่างมีประสิทธิภาพ
ชั้นแรก: ยกเลิกการแบ่งชั้น ทำให้เครือข่ายแบนราบทั่วทั้งระบบ สถาปัตยกรรม Clos แบบดั้งเดิมประกอบด้วยชั้น Spine และชั้น Leaf การส่งข้อมูลระหว่าง GPU ต้อง “ขึ้นไปยัง Spine แล้วลงไปยัง Leaf” การส่งต่อข้ามชั้นทำให้เกิดความหน่วงและความเสี่ยงแออัดเพิ่มเติม ZCube ยกเลิกสวิตช์ชั้น Spine แบ่งสวิตช์ Leaf ทั้งหมดออกเป็นสองกลุ่มตามเลขคี่และคู่ เชื่อมต่อระหว่างสองกลุ่มด้วยกราฟสองส่วนสมบูรณ์ (คือสวิตช์เลขคี่ทุกตัวเชื่อมต่อกับสวิตช์เลขคู่ทั้งหมด) ซึ่งหมายความว่า GPU ทั่วทั้งเครือข่ายสามารถเข้าถึงกันได้ผ่านสวิตช์เพียงสองตัว เส้นผ่านศูนย์กลางเครือข่ายคือ 2 hops อยู่ระหว่างการจัดกลุ่มเครือข่ายสวิตช์ชั้นเดียว (1 hop, ขนาดจำกัด) และ Clos สองชั้น (3 hops, ความหน่วงสูง)
ชั้นที่สอง: การเชื่อมต่อแบบ single-rail + multi-rail แบบผสม เพื่อให้เกิดการสมดุลโหลดในอุดมคติ นี่คือการออกแบบที่ชาญฉลาดที่สุดของ ZCube การ์ดเครือข่าย GPU แต่ละใบมีสองพอร์ต เชื่อมต่อกับสวิตช์สองกลุ่มด้วยสองวิธีที่แตกต่างกันโดยสิ้นเชิง: พอร์ตแรกใช้วิธี “multi-rail” คือ GPU ที่มีหมายเลขเดียวกันเชื่อมต่อกับสวิตช์เลขคี่ตัวเดียวกัน; พอร์ตที่สองใช้วิธี “single-rail” คือ GPU ที่มีหมายเลขต่อเนื่องกันเชื่อมต่อกับสวิตช์เลขคู่ตัวเดียวกัน
การออกแบบโทโพโลยีแบบ “การ์ดเครือข่ายใบเดียว สองวิธีเชื่อมต่อ” นี้นำมาซึ่งคุณสมบัติสำคัญ: ระหว่าง GPU สองตัวใดๆ ในเครือข่ายมีเส้นทางที่เหมาะสมที่สุดเพียงเส้นทางเดียว การเลือกเส้นทางหลายเส้นทางเป็นแหล่งสำคัญของความแออัดในสถาปัตยกรรมแบบดั้งเดิม เนื่องจากหลายเส้นทางหมายถึงกลยุทธ์การสมดุลโหลดต้องทำการเลือก การเลือกอาจผิดพลาด นำไปสู่การรวมศูนย์ปริมาณการรับส่งข้อมูล ZCube ใช้เส้นทางเดียวเพื่อขจัดความไม่แน่นอนนี้
พูดให้เข้าใจง่ายขึ้น: ปริมาณการรับส่งข้อมูลที่อาจเกิดการชนกันระหว่างสวิตช์ในสถาปัตยกรรม ROFT จะสามารถใช้เส้นทางเครือข่ายทั้งหมดแต่เพียงผู้เดียวในสถาปัตยกรรม ZCube
ชั้นที่สาม: ต้นทุนต่ำกว่า ความสามารถในการขยาย更强 ความทนทานต่อข้อผิดพลาดสูงกว่า ZCube ในขณะที่เพิ่มประสิทธิภาพ กลับลดต้นทุนฮาร์ดแวร์ เนื่องจากการยกเลิกชั้น Spine ในขนาดคลัสเตอร์ที่เท่ากัน ZCube ลดสวิตช์และโมดูลออปติกลงประมาณหนึ่งในสามเมื่อเทียบกับสถาปัตยกรรม Clos / ROFT
การเพิ่มขึ้นสองเท่าของความสามารถในการขยายและความทนทานต่อข้อผิดพลาด
ในด้านความสามารถในการขยาย สถาปัตยกรรม ZCube มีประสิทธิภาพโดดเด่นเป็นพิเศษ ตัวอย่างเช่น ด้วยการกำหนดค่าเครือข่าย 400Gb/s ที่เป็น主流ในปัจจุบัน มันต้องการสวิตช์เพียงชั้นเดียวเพื่อสร้างเครือข่ายแบนราบที่เชื่อมต่อ GPU 16384 ตัว ในทางตรงกันข้าม สถาปัตยกรรม ROFT แบบดั้งเดิมต้องพึ่งพาสวิตช์สามชั้นเพื่อให้ได้ขนาดเท่ากัน หากใช้สวิตช์ 102.4Tbps รุ่นถัดไปและการ์ดเครือข่าย ConnectX-8 สี่พอร์ต จำนวน GPU ที่ ZCube รองรับจะ พุ่งสูงถึง 65536 ตัว
ความทนทานต่อข้อผิดพลาดก็เป็นจุดเด่นของ ZCube เนื่องจากไม่มีระนาบแยกแบบแข็งระหว่าง GPU ทั่วทั้งเครือข่าย ภายใต้อัตราความล้มเหลวของลิงก์ที่กำหนด ความน่าจะเป็นที่ GPU คู่หนึ่งจะไม่สามารถเข้าถึงกันได้ต่ำกว่าเครือข่าย Clos สองระนาบแบบดั้งเดิมมากกว่า 50%

แผนภาพการสมดุลโหลดปริมาณการรับส่งข้อมูลภายใต้สถาปัตยกรรม ZCube
สถาปัตยกรรม Clos แบบดั้งเดิมเปรียบเสมือนระบบสะพานลอยหลายชั้น ยานพาหนะต้องขึ้นลงทางลาดบ่อยครั้ง ในช่วงชั่วโมงเร่งด่วน ทางลาดบางแห่งจะต้องติดขัดอย่างแน่นอน และความล้มเหลวในชั้นหนึ่งจะส่งผลกระทบต่อการจราจรจำนวนมาก ในขณะที่ ZCube เปรียบเสมือนเครือข่ายถนนราบที่ผ่านการปรับให้เหมาะสมทางคณิตศาสตร์อย่างแม่นยำ ยานพาหนะแต่ละคันมีเส้นทางที่สั้นที่สุดเพียงเส้นทางเดียวไปยังจุดหมาย ปริมาณการจราจรบนทุกส่วนของถนนถูกกระจายอย่างสม่ำเสมอ ขจัด隐患 ความแออัดตั้งแต่ระดับการวางแผน
การตรวจสอบด้วยการทดลอง: ฮาร์ดแวร์เดียวกัน พลังประมวลผลเพิ่มขึ้น 15%
สิ่งที่ ZCube น่าจับตามองอย่างแท้จริงคือ มันได้ เสร็จสิ้นการตรวจสอบการผลิตอย่างสมบูรณ์ ในคลัสเตอร์การอนุมาน GLM-5.1 coding ระดับพัน GPU ของ Zhipu AI
การตั้งค่าการทดลองนั้นบริสุทธิ์มาก: รุ่น GPU, สแต็คซอฟต์แวร์, และโค้ดธุรกิจยังคงไม่เปลี่ยนแปลง ตัวแปรเดียวคือการแทนที่สถาปัตยกรรม ROFT แบบดั้งเดิมด้วย ZCube ผลลัพธ์มีดังนี้:
- ปริมาณงานอนุมานเพิ่มขึ้นมากกว่า 15%: ด้วยการลงทุนฮาร์ดแวร์เท่าเดิม สามารถตอบสนองคำขอ API ได้มากขึ้น 15% ต่อวินาที
- TTFT P99 ลดลง 40.6%: ความหน่วงท้ายของการตอบสนอง Token แรกลดลงอย่างมาก ทำให้ประสบการณ์ผู้ใช้ลื่นไหลยิ่งขึ้น
- ต้นทุนสวิตช์และโมดูลออปติกลดลงหนึ่งในสาม: ในคลัสเตอร์ขนาดหมื่น GPU เฉพาะฮาร์ดแวร์เครือข่ายเพียงอย่างเดียวสามารถประหยัดการลงทุนได้ประมาณ 210 ล้านถึง 640 ล้านหยวน
ที่สำคัญกว่านั้น ต้นทุนส่วนเพิ่มของการอัปเกรดนี้ต่ำมาก เป็นเพียงการเปลี่ยนสถาปัตยกรรมเครือข่ายเท่านั้น ในบริบทที่อุปทาน GPU ยังคงตึงตัวและราคายังสูง โซลูชันที่สามารถเพิ่มประสิทธิภาพระบบได้อย่างมีนัยสำคัญโดยไม่ต้องพึ่งพาการ堆叠 ฮาร์ดแวร์นั้นมีคุณค่าทางอุตสาหกรรมที่ชัดเจนในตัวเอง
จุดศูนย์กลางคุณค่าของโครงสร้างพื้นฐาน AI กำลัง迁移
การนำ ZCube ไปใช้จริงและการเผยแพร่โปรโตคอล MRC ของ OpenAI ในบริบทใหญ่ของโครงสร้างพื้นฐาน AI ปี 2026 ชี้ไปที่จุดเปลี่ยนของอุตสาหกรรมที่ลึกซึ้งยิ่งขึ้น: จุดศูนย์กลางคุณค่าของโครงสร้างพื้นฐาน AI กำลัง迁移 จาก “พลังประมวลผล” ไปสู่ “ประสิทธิภาพของระบบ”
ทำให้ GPU ทำงานได้ดีขึ้น
ในช่วงสามปีที่ผ่านมา กลยุทธ์โครงสร้างพื้นฐานของบริษัทโมเดลขนาดใหญ่สามารถสรุปได้ด้วยคำเดียว: ซื้อ แย่ง GPU, แย่งการ์ดประมวลผล, แย่งตู้แร็ค, แม้กระทั่งแย่งพลังงาน ในช่วงที่โมเดลจากศูนย์ไปสู่หนึ่ง ตรรกะนี้ใช้ได้—ขนาดพลังประมวลผลกำหนดโดยตรงว่าสามารถฝึกโมเดลได้ใหญ่แค่ไหนและรองรับผู้ใช้ได้กี่คน
แต่ตอนนี้ ตรรกะนี้เริ่มพบอุปสรรค
ประการแรก อุปทาน GPU ยังคงตึงตัว แม้ NVIDIA จะขยายการผลิตอย่างต่อเนื่อง แต่ความต้องการที่เพิ่มขึ้นนั้นแซงหน้าอุปทาน โดยเฉพาะอย่างยิ่งระยะเวลาการส่งมอบ GPU ระดับไฮเอนด์สำหรับการอนุมานยังคงนับเป็นไตรมาส ประการที่สอง แบบจำลองทางเศรษฐกิจของการจัดซื้อพลังประมวลผลกำลังแย่ลง ราคา GPU ยังคงสูง ในขณะที่การแข่งขันด้านราคา API ของโมเดลขนาดใหญ่รุนแรงขึ้น ราคาต่อ Token ลดลงอย่างต่อเนื่อง ทำให้อัตรากำไรถูกบีบจากทั้งสองด้าน ประการที่สาม ผลตอบแทนส่วนเพิ่มของการ堆叠 GPU เพียงอย่างเดียวกำลังลดลง เมื่อขนาดคลัสเตอร์ขยายจากพัน GPU เป็นหมื่น GPU พลังประมวลผลของ GPU ที่เพิ่มขึ้นใหม่ไม่สามารถปลดปล่อยเป็นเส้นตรงได้
ภายใต้แนวโน้มนี้ MRC ของ OpenAI และ ZCube ของ Zhipu AI เป็นตัวแทนของเส้นทางเทคนิคเสริมสองเส้นทางที่ชั้นโปรโตคอลและชั้นสถาปัตยกรรมตามลำดับ ทั้งสองอย่างเสริมกันสูง เมื่อขนาดคลัสเตอร์การอนุมานยังคงพัฒนาไปสู่ระดับแสน GPU หรือใหญ่กว่านั้น การผสมผสาน “ไม่มีแออัดในชั้นสถาปัตยกรรม + ทนทานต่อข้อผิดพลาดสูงในชั้นโปรโตคอล” อาจกลายเป็นมาตรฐาน
การเปลี่ยนแปลงเชิงโครงสร้างของห่วงโซ่อุตสาหกรรม
NVIDIA ซื้อ Mellanox ในปี 2019 ด้วยมูลค่า 6.9 พันล้านดอลลาร์สหรัฐ ผนวก InfiniBand เข้าไปในแผนที่พลังประมวลผล AI ของตน ตั้งแต่นั้นมา ตลาดเครือข่ายศูนย์ข้อมูลเกือบถูก InfiniBand ผูกขาดความต้องการระดับสูงของสถานการณ์ AI
เมื่ออุตสาหกรรมพัฒนาไปสู่ขั้นใหม่ แรงผลักดันหลายประการกำลัง打破格局นี้
มาตรฐาน Ultra Ethernet Consortium (UEC) ก้าวหน้าอย่างรวดเร็ว เติมเต็มความสามารถด้านความหน่วงต่ำและความน่าเชื่อถือสูงที่สถานการณ์ AI ต้องการให้กับ Ethernet จากระดับโปรโตคอล
นอกจากนี้ ตามรายงานการวิจัยของ TrendForce ตลาดโมดูลรับส่งสัญญาณออปติกเฉพาะ AI ทั่วโลกได้เข้าสู่ช่วงการเติบโตอย่างรวดเร็ว คาดว่าจะเพิ่มขึ้นจาก 16.5 พันล้านดอลลาร์สหรัฐในปี 2025 เป็น 26 พันล้านดอลลาร์สหรัฐในปี 2026 เพิ่มขึ้นมากกว่า 57% รายงานวิจัยของ Guojin Securities ชี้ให้เห็นว่า เมื่อความต้องการอนุมานขับเคลื่อนพลังประมวลผลจาก GPU ทั่วไปไปสู่ ASIC เฉพาะทาง ชิป ASIC โดยธรรมชาติในการออกแบบอินเทอร์เฟซเครือข่ายมีแนวโน้มที่จะใช้มาตรฐาน Ethernet แบบเปิด ซึ่งยังผลักดันให้สถาปัตยกรรมเครือข่าย迁移 จากโปรโตคอลเฉพาะไปสู่มาตรฐานเปิด
การเกิดขึ้นของ ZCube ยิ่ง加速กระบวนการนี้ มันลดระดับสวิตช์จากสามชั้นแบบดั้งเดิมเหลือชั้นเดียว ลดการพึ่งพาสวิตช์ Spine ระดับสูงลงอย่างมาก ในขณะที่ต้องการให้สวิตช์ Leaf มีความหนาแน่นของพอร์ตสูงขึ้น
ซึ่งหมายความว่าตรรกะการจัดซื้อของการจัดกลุ่มเครือข่ายคลัสเตอร์จะเกิดการเปลี่ยนแปลงเชิงโครงสร้าง: ความต้องการจะเปลี่ยนจากโครงสร้างพีระมิดของ “สวิตช์ระดับสูงจำนวนน้อย + สวิตช์ระดับกลางจำนวนมาก” ไปเป็นโครงสร้างแบนราบของ “สวิตช์ความหนาแน่นสูงจำนวนมาก + โมดูลออปติกความเร็วสูงขึ้น”
บทส่งท้าย
อัตราส่วนผลตอบแทนต่อการลงทุนของนวัตกรรมสถาปัตยกรรมเครือข่าย อาจเกินสัญชาตญาณของคนส่วนใหญ่
ในสภาพแวดล้อมที่ราคา GPU สูงและอุปทานพลังประมวลผลค่อนข้างตึงตัว ความสนใจของบริษัทส่วนใหญ่ยังคงจดจ่ออยู่ที่ “จะได้รับ GPU เพิ่มขึ้นได้อย่างไร” แต่ ZCube พิสูจน์ด้วยข้อมูลการผลิตจริงว่า ภายใต้ทรัพยากร GPU ที่ไม่เปลี่ยนแปลง การอัปเกรดสถาปัตยกรรมเครือข่ายเพียงอย่างเดียวสามารถปลดปล่อยพลังประมวลผลเพิ่มเติม 15% พร้อมประหยัดต้นทุนเครือข่ายหนึ่งในสาม หากขยายสัดส่วนนี้ไปยังขนาดหมื่น GPU หรือแม้แต่แสน GPU คุณค่าที่การปรับเครือข่ายปลดปล่อยออกมาจะเกินความเข้าใจทั่วไป
คอขวดเครือข่ายยังมีคุณสมบัติที่ถูกประเมินต่ำไปอย่างกว้างขวาง: มันรุนแรงขึ้นแบบทวีคูณตามขนาดคลัสเตอร์ เมื่อขนาดคลัสเตอร์เพิ่มเป็นสองเท่า ความซับซ้อนของการสื่อสารระหว่าง GPU อาจเพิ่มขึ้นหลายเท่า ความน่าจะเป็นและผลกระทบของความแออัดก็ขยายตามไปด้วย ซึ่งหมายความว่าคุณค่าของนวัตกรรมระดับสถาปัตยกรรมเช่น ZCube จะเร่งปรากฏชัดขึ้นเมื่อคลัสเตอร์การอนุมานขยายตัวอย่างต่อเนื่อง
สำหรับผู้ให้บริการคลาวด์ บริษัทโมเดล และศูนย์ประมวลผลอัจฉริยะที่กำลังเร่งขยายโครงสร้างพื้นฐาน AI นี่อาจเป็นช่วงเวลาสำคัญในการทบทวนแผนการจัดกลุ่มเครือข่าย ครึ่งหลังของการแข่งขันพลังประมวลผล AI ชัยชนะอาจขึ้นอยู่กับ “เครือข่ายที่มองไม่เห็น” นั้น
ลิงก์อ้างอิง:
https://www.trendforce.cn/presscenter/news/20260420-13018.html
https://news.qq.com/rain/a/20260413A03IX100
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35717
