国产算力新突破：摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5，硬撼H100逼近Blackwell

1天前 • AI产业动态 • 阅读 12

在国产AI算力领域，硬件性能是基础，而软硬协同的生态适配能力才是决定胜负的关键。随着智谱AI发布最新一代旗舰模型GLM-5，这款在编码能力上位居全球开源第一、总榜第四的模型迅速引发行业关注。

与此同时，摩尔线程宣布其AI旗舰计算卡MTT S5000实现了对GLM-5的Day0“发布即适配”，并首次披露了关键性能参数：在FP8精度下，单卡AI算力高达1000 TFLOPS，并提供原生FP8支持，在显存容量、互联带宽等指标上对标英伟达H100。

自2024年推出以来，这款为训推一体设计的全功能GPU，不仅在纸面参数上对标国际主流产品，更在智源研究院、硅基流动等机构的实战检验中，展现出挑战高端算力格局的潜力。

国产算力新突破：摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5，硬撼H100逼近Blackwell

一、生态的飞跃：GLM-5“Day-0”适配背后的全栈协同

此次GLM-5发布即适配，是摩尔线程软硬协同技术路线的集中体现。作为定位智能体工程（Agentic Engineering）的旗舰模型，GLM-5性能相较上一代提升约20%，对长序列推理和复杂系统工程能力提出了更高要求。MTT S5000凭借充沛的算力储备与对稀疏注意力（Sparse Attention）的架构级支持，在大规模上下文处理中保持了高吞吐与低延迟，有效承接了GLM-5在长程智能体任务中的计算需求。

实现“Day-0”适配的关键在于MUSA软件栈的敏捷性。基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%，使得绝大多数通用算子可直接复用，极大降低了模型移植成本。通过高效的算子融合及框架优化，MTT S5000在运行GLM-5时展现了极低的首字延迟（TTFT）和流畅的生成体验，尤其在代码补全、漏洞检测等核心编码场景中表现优异。

国产算力新突破：摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5，硬撼H100逼近Blackwell

二、硬实力的底气：S5000性能逼近Blackwell

MTT S5000性能的全面披露，揭示了国产GPU在架构设计与集群扩展上的成熟度。作为摩尔线程第四代MUSA架构“平湖”的旗舰产品，S5000单卡搭载80GB显存，显存带宽达1.6TB/s，卡间互联带宽为784GB/s，单卡FP8算力达到1000 TFLOPS，在核心指标上与英伟达H100基本对齐。

MTT S5000对FP8到FP64全精度计算提供完整支持，其中硬件级FP8张量核心（Tensor Core）的引入是其性能跃升的关键。据行业测试信息反馈，MTT S5000在特定产品精度层面已超越H100，技术特性更逼近英伟达下一代Blackwell架构。

来自互联网厂商的实测数据显示，在典型端到端推理及训练任务中，MTT S5000的性能约为竞品H20的2.5倍。这主要得益于其高达1000 TFLOPS的单卡算力，使其在计算密集型场景中不仅能提供强劲算力输出，也在整体性价比上展现出优势。

基于S5000构建的“夸娥”万卡集群，其浮点运算能力已达10 Exa-Flops级别。在该集群的实测中，S5000展现了高算力利用率（MFU）：Dense模型训练中MFU达60%，MoE模型维持在40%左右，Flash Attention算力利用率更超过95%。这得益于摩尔线程独创的ACE技术，该技术通过将复杂通信任务从计算核心卸载，实现物理级的“通信计算重叠”，从而释放了约15%的被占用算力。实测显示，从64卡扩展至1024卡，系统能保持90%以上的线性扩展效率。

国产算力新突破：摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5，硬撼H100逼近Blackwell

三、实战检验：在顶尖模型训练与推理中对标H100

真实的落地案例是检验算力成色的关键。摩尔线程S5000在训练与推理两大核心场景中均表现出色。

在训练端，2026年1月，智源研究院利用S5000千卡集群完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证。结果显示，其训练过程与英伟达H100集群高度一致，训练损失值（loss）差异仅为0.62%，证明了S5000在复现顶尖大模型训练流程上的精准度与稳定性。用户依托MUSA全栈软件平台，能够原生适配PyTorch、Megatron-LM等主流框架，实现“零成本”的代码迁移。

在推理端，S5000的表现同样刷新了国产GPU的纪录。2025年12月，摩尔线程联合硅基流动，针对DeepSeek-V3 671B满血版进行了深度适配与性能测试。得益于S5000的原生FP8能力与SGLang-MUSA推理引擎的深度优化，在PD分离部署中，单卡预填充（Prefill）吞吐量超过4000 tokens/s，解码（Decode）吞吐量超过1000 tokens/s。这一成绩不仅大幅降低了显存占用，更在高并发场景下保证了低延迟响应。配合首创的细粒度重计算技术，S5000将相关开销降至原有的1/4，全方位提升了系统吞吐量。

从GLM-4.6、GLM-4.7到如今的GLM-5，摩尔线程通过一次次“发布即适配”的实践，证明了其国产全功能GPU及MUSA软件栈已具备高度成熟度。这种对前沿模型的快速响应能力，不仅为开发者提供了第一时间触达最新模型能力的通道，也为行业筑牢了一个坚实、易用且具备高度兼容性的国产算力底座。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21450

国产算力新突破：摩尔线程S5000以1000 TFLOPS算力与Day0适配GLM-5，硬撼H100逼近Blackwell

一、生态的飞跃：GLM-5“Day-0”适配背后的全栈协同

二、硬实力的底气：S5000性能逼近Blackwell

三、实战检验：在顶尖模型训练与推理中对标H100

相关推荐

美团CatPaw AI IDE深度解析：从内部工具到外部产品的AI编程革命

AMD Ryzen AI NPU 性能跃升：XDNA2架构实现38.05 TOPS，GEMM优化开启计算-内存平衡新范式

AI资本内循环：从万亿美元市值到信息平权的技术革命

ICLR 2026 学术诚信危机：AI 幻觉引用如何挑战同行评审体系

学术产业化危机：当AI顶会成为明码标价的“入学筹码”