ความก้าวหน้าใหม่ของพลังการคำนวณในประเทศ: Moore Threads S5000 ด้วยพลังการคำนวณ 1000 TFLOPS และการรองรับ GLM-5 ใน Day0 ท้าทาย H100 เข้าใกล้ Blackwell

2026年2月13日 am6:59 • ข่าวสารอุตสาหกรรม AI • 239 views

ในด้านกำลังการประมวลผล AI ของประเทศจีน ความสามารถด้านฮาร์ดแวร์เป็นพื้นฐาน แต่ความสามารถในการปรับตัวของระบบนิเวศที่ประสานงานระหว่างซอฟต์แวร์และฮาร์ดแวร์ต่างหากที่เป็นกุญแจสำคัญในการตัดสินชัยชนะ เมื่อ Zhipu AI เปิดตัวโมเดลเรือธงรุ่นล่าสุด GLM-5 ซึ่งมีความสามารถในการเขียนโค้ดติดอันดับ 1 ของโลกในหมวดโอเพ่นซอร์ส และอันดับ 4 โดยรวม โมเดลนี้ได้ดึงดูดความสนใจจากอุตสาหกรรมอย่างรวดเร็ว

ในเวลาเดียวกัน Moore Threads ประกาศว่าการ์ดประมวลผล AI เรือธง MTT S5000 ของบริษัทได้บรรลุการปรับตัวแบบ Day0 “พร้อมใช้งานทันทีที่เปิดตัว” สำหรับ GLM-5 และเปิดเผยพารามิเตอร์ประสิทธิภาพหลักเป็นครั้งแรก: ที่ความแม่นยำ FP8 กำลังประมวลผล AI ต่อการ์ดสูงถึง 1000 TFLOPS และรองรับ FP8 แบบเนทีฟ โดยมีตัวชี้วัดเช่นความจุหน่วยความจำกราฟิกส์และแบนด์วิธการเชื่อมต่อเทียบเคียงกับ NVIDIA H100

นับตั้งแต่เปิดตัวในปี 2024 GPU แบบเต็มฟังก์ชันที่ออกแบบมาสำหรับการฝึกฝนและการอนุมานแบบบูรณาการนี้ ไม่เพียงแต่มีพารามิเตอร์บนกระดาษเทียบเคียงกับผลิตภัณฑ์หลักระดับสากล แต่ยังแสดงให้เห็นถึงศักยภาพในการท้าทายโครงสร้างกำลังการประมวลผลระดับสูงในการทดสอบภาคปฏิบัติโดยสถาบันต่างๆ เช่น Beijing Academy of Artificial Intelligence และ Silicon Flow

ความก้าวหน้าใหม่ของพลังการคำนวณในประเทศ: Moore Threads S5000 ด้วยพลังการคำนวณ 1000 TFLOPS และการรองรับ GLM-5 ใน Day0 ท้าทาย H100 เข้าใกล้ Blackwell

1. การก้าวกระโดดของระบบนิเวศ: การทำงานร่วมกันแบบเต็มสแต็คเบื้องหลังการปรับตัว GLM-5 แบบ “Day-0”

การปรับตัวพร้อมใช้งานทันทีที่เปิดตัว GLM-5 นี้ เป็นการแสดงให้เห็นอย่างชัดเจนของแนวทางเทคโนโลยีการทำงานร่วมกันระหว่างซอฟต์แวร์และฮาร์ดแวร์ของ Moore Threads ในฐานะโมเดลเรือธงที่มุ่งเน้นไปที่วิศวกรรมเอเจนต์ (Agentic Engineering) ประสิทธิภาพของ GLM-5 เพิ่มขึ้นประมาณ 20% เมื่อเทียบกับรุ่นก่อนหน้า ซึ่งต้องการความสามารถในการให้เหตุผลลำดับยาวและวิศวกรรมระบบที่ซับซ้อนมากขึ้น MTT S5000 ด้วยการสำรองกำลังประมวลผลที่เพียงพอและการสนับสนุนระดับสถาปัตยกรรมสำหรับความสนใจแบบเบาบาง (Sparse Attention) รักษา throughput สูงและ latency ต่ำในการประมวลผลบริบทขนาดใหญ่ ตอบสนองความต้องการการคำนวณของ GLM-5 ในงานเอเจนต์ระยะยาวได้อย่างมีประสิทธิภาพ

กุญแจสำคัญในการบรรลุการปรับตัวแบบ “Day-0” อยู่ที่ความคล่องตัวของซอฟต์แวร์สแต็ค MUSA อัตราครอบคลุมการทดสอบหน่วย (Unit Test) ของ TileLang Native Operators ภายใต้สถาปัตยกรรม MUSA เกิน 80% แล้ว ทำให้โอเปอเรเตอร์ทั่วไปส่วนใหญ่สามารถนำกลับมาใช้ใหม่ได้โดยตรง ซึ่งลดต้นทุนการย้ายโมเดลลงอย่างมาก ผ่านการผสานโอเปอเรเตอร์ที่มีประสิทธิภาพและการปรับแต่งเฟรมเวิร์ก MTT S5000 แสดงให้เห็น latency ของโทเค็นแรก (TTFT) ที่ต่ำมากและประสบการณ์การสร้างที่ราบรื่นเมื่อรัน GLM-5 โดยเฉพาะอย่างยิ่งในสถานการณ์การเขียนโค้ดหลัก เช่น การเติมโค้ดอัตโนมัติและการตรวจจับช่องโหว่

2. ความมั่นใจจากความแข็งแกร่งด้านฮาร์ดแวร์: ประสิทธิภาพของ S5000 เข้าใกล้ Blackwell

การเปิดเผยประสิทธิภาพของ MTT S5000 อย่างครบถ้วน เผยให้เห็นถึงวุฒิภาวะของ GPU ผลิตในประเทศในการออกแบบสถาปัตยกรรมและการขยายคลัสเตอร์ ในฐานะผลิตภัณฑ์เรือธงของสถาปัตยกรรม MUSA รุ่นที่สี่ “Pinghu” ของ Moore Threads S5000 ต่อการ์ดมาพร้อมกับหน่วยความจำกราฟิกส์ 80GB แบนด์วิธหน่วยความจำกราฟิกส์สูงถึง 1.6TB/s แบนด์วิธการเชื่อมต่อระหว่างการ์ดอยู่ที่ 784GB/s และกำลังประมวลผล FP8 ต่อการ์ดสูงถึง 1000 TFLOPS ซึ่งสอดคล้องกับตัวชี้วัดหลักของ NVIDIA H100 โดยพื้นฐาน

MTT S5000 รองรับการคำนวณแบบเต็มความแม่นยำตั้งแต่ FP8 ถึง FP64 โดยการนำเสนอ Tensor Core ระดับฮาร์ดแวร์สำหรับ FP8 เป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพอย่างก้าวกระโดด ตามข้อมูลการทดสอบจากอุตสาหกรรม MTT S5000 มีความแม่นยำของผลิตภัณฑ์เฉพาะด้านที่เกิน H100 แล้ว และคุณลักษณะทางเทคนิคเข้าใกล้สถาปัตยกรรม Blackwell รุ่นต่อไปของ NVIDIA มากขึ้น

ข้อมูลการทดสอบจริงจากผู้ให้บริการอินเทอร์เน็ตแสดงให้เห็นว่าในงานอนุมานและการฝึกฝนแบบ end-to-end ทั่วไป ประสิทธิภาพของ MTT S5000 สูงกว่าผู้แข่งขัน H20 ประมาณ 2.5 เท่า สิ่งนี้ได้มาจากกำลังประมวลผลต่อการ์ดที่สูงถึง 1000 TFLOPS เป็นหลัก ทำให้ในสถานการณ์ที่เน้นการคำนวณอย่างเข้มข้น ไม่เพียงแต่สามารถให้กำลังประมวลผลที่แข็งแกร่ง แต่ยังแสดงให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพโดยรวมต่อราคา

คลัสเตอร์ “Kua E” หมื่นการ์ดที่สร้างขึ้นจาก S5000 มีความสามารถในการดำเนินการจุดลอยตัวถึงระดับ 10 Exa-Flops ในการทดสอบจริงบนคลัสเตอร์นี้ S5000 แสดงให้เห็นอัตราการใช้กำลังประมวลผล (MFU) สูง: MFU ในการฝึกโมเดล Dense ถึง 60% โมเดล MoE อยู่ที่ประมาณ 40% และอัตราการใช้กำลังประมวลผลของ Flash Attention เกิน 95% สิ่งนี้ได้มาจากเทคโนโลยี ACE ที่คิดค้นโดย Moore Threads เทคโนโลยีนี้โดยการถ่ายโอนงานสื่อสารที่ซับซ้อนออกจากแกนประมวลผล ทำให้เกิด “การทับซ้อนของการสื่อสารและการคำนวณ” ในระดับกายภาพ ซึ่งปลดปล่อยกำลังประมวลผลที่ถูกใช้งานประมาณ 15% การทดสอบจริงแสดงให้เห็นว่า จากการขยายจาก 64 การ์ดเป็น 1024 การ์ด ระบบสามารถรักษาประสิทธิภาพการขยายเชิงเส้นได้มากกว่า 90%

3. การทดสอบภาคปฏิบัติ: เทียบเคียงกับ H100 ในการฝึกฝนและอนุมานโมเดลระดับสูง

กรณีศึกษาการใช้งานจริงเป็นกุญแจสำคัญในการทดสอบคุณภาพของกำลังการประมวลผล Moore Threads S5000 ประสบความสำเร็จทั้งในสองสถานการณ์หลัก: การฝึกฝนและการอนุมาน

ด้านการฝึกฝน ในเดือนมกราคม 2026 Beijing Academy of Artificial Intelligence ใช้คลัสเตอร์พันการ์ด S5000 เพื่อดำเนินการฝึกฝนแบบ end-to-end และการตรวจสอบการจัดตำแหน่งสำหรับโมเดลสมองแบบมีตัวตนขั้นหน้า RoboBrain 2.5 ผลลัพธ์แสดงให้เห็นว่ากระบวนการฝึกฝนมีความสอดคล้องสูงกับคลัสเตอร์ NVIDIA H100 โดยความแตกต่างของค่าการสูญเสีย (loss) จากการฝึกฝนมีเพียง 0.62% ซึ่งพิสูจน์ความแม่นยำและความเสถียรของ S5000 ในการทำซ้ำขั้นตอนการฝึกโมเดลขนาดใหญ่ระดับสูง ผู้ใช้สามารถพึ่งพาแพลตฟอร์มซอฟต์แวร์แบบเต็มสแต็ค MUSA เพื่อปรับตัวแบบเนทีฟกับเฟรมเวิร์กหลักเช่น PyTorch และ Megatron-LM ได้ โดยทำให้เกิดการย้ายโค้ด “ต้นทุนเป็นศูนย์”

ด้านการอนุมาน ประสิทธิภาพของ S5000 ก็ทำลายสถิติของ GPU ผลิตในประเทศเช่นกัน ในเดือนธันวาคม 2025 Moore Threads ร่วมกับ Silicon Flow ดำเนินการปรับตัวเชิงลึกและการทดสอบประสิทธิภาพสำหรับ DeepSeek-V3 671B เวอร์ชันเต็ม เนื่องจากความสามารถ FP8 แบบเนทีฟของ S5000 และการปรับแต่งเชิงลึกของเอ็นจิ้นอนุมาน SGLang-MUSA ในการปรับใช้แบบแยก PD throughput การเติมล่วงหน้า (Prefill) ต่อการ์ดเกิน 4000 โทเค็น/วินาที และ throughput การถอดรหัส (Decode) เกิน 1000 โทเค็น/วินาที ผลลัพธ์นี้ไม่เพียงแต่ลดการใช้หน่วยความจำกราฟิกส์ลงอย่างมาก แต่ยังรับประกันการตอบสนอง latency ต่ำในสถานการณ์ที่มีการร้องขอพร้อมกันสูง ร่วมกับเทคโนโลยีการคำนวณซ้ำแบบละเอียดที่คิดค้นเป็นครั้งแรก S5000 ลดค่าใช้จ่ายที่เกี่ยวข้องลงเหลือ 1/4 ของเดิม และเพิ่ม throughput ของระบบในทุกด้าน

จาก GLM-4.6, GLM-4.7 ถึง GLM-5 ในปัจจุบัน Moore Threads ได้พิสูจน์ผ่านการปฏิบัติแบบ “พร้อมใช้งานทันทีที่เปิดตัว” ครั้งแล้วครั้งเล่าว่า GPU แบบเต็มฟังก์ชันผลิตในประเทศและซอฟต์แวร์สแต็ค MUSA ของบริษัทมีความเป็นผู้ใหญ่ในระดับสูงแล้ว ความสามารถในการตอบสนองอย่างรวดเร็วต่อโมเดลล้ำสมัยนี้ ไม่เพียงแต่เปิดช่องทางให้นักพัฒนาเข้าถึงความสามารถของโมเดลล่าสุดได้ทันที แต่ยังสร้างฐานกำลังการประมวลผลผลิตในประเทศที่มั่นคง ใช้งานง่าย และมีความเข้ากันได้สูงให้กับอุตสาหกรรม

ติดตามโปรแกรม Mini App “Whale Habitat” เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง