摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

上市仅15天后,摩尔线程便将首个大动作直接指向了生态的核心——开发者。

在首届、也是国内首个聚焦全功能GPU的开发者大会上,围绕MUSA这一关键词,新品密集发布:

  • 一个全新GPU架构:花港,算力密度提升50%,能效提升10倍。
  • 三款新芯片:华山、庐山、长江,分别聚焦AI训推一体、图形渲染和智能SoC。
  • 一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自主研发的AI Foundry。
  • 两款硬件产品:专为开发者打造的AIBOOK和AICube。

这并非零散的产品更新,而是摩尔线程打出的一套从云到端、从算力到生态的组合拳。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

在长达两个多小时的发布中,最直观的感受是,摩尔线程已将国产GPU推向了新的高度。

接下来,我们从最核心的全新GPU架构“花港”为起点,对此次开发者大会一探究竟。

MUSA,已成为全功能GPU架构的代名词

什么是MUSA?

其全称为Meta-computing Unified System Architecture(元计算统一系统架构),是摩尔线程自主研发的统一计算架构。

如何理解?可以说,从芯片架构、指令集、编程模型,到软件运行库及驱动程序框架,均属于MUSA的范畴。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

历经五年发展,MUSA已完整定义了全功能GPU从芯片设计到软件生态的统一技术标准,并支持AI计算、图形渲染、物理仿真、科学计算及超高清视频编解码等全场景高性能计算。

纵观MUSA硬件架构的迭代历程,从苏堤、春晓、曲院到平湖,每一次升级都在探索GPU算力的边界。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

最新发布的第五代全功能GPU架构“花港”,亦是如此:

  • 算力密度提升50%:在同等芯片面积下,可部署更多计算单元。
  • 计算能效提升10倍:单位瓦特性能大幅优化,为大规模智算集群提供绿色底座。
  • 新增FP4计算:从FP4、FP6、FP8到FP16、BF16乃至FP64,实现全精度端到端计算,覆盖AI、HPC、图形等全场景需求。
  • 支持十万卡集群:通过MTLink高速互联,为超大规模模型训练铺平道路。

尤为值得关注的是,花港在低精度计算上的深度优化。架构新增了MTFP6/MTFP4及混合低精度端到端加速技术,专为未来AI主流场景——低比特训练与推理而生。

在Attention机制的关键路径上,花港原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,并内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎(如MT Transformer Engine)提供底层支撑。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

如果说硬件架构是能力的基石,那么软件栈就是将这些能力交付给开发者的具体路径。

除架构本身外,摩尔线程此次同步推出了MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链:

  • AI框架广泛适配:除PyTorch、PaddlePaddle外,新增对JAX、TensorFlow的支持。
  • 训练生态扩展:在Megatron、DeepSpeed基础上,新增强化学习训练框架MT VeRL。
  • 推理引擎丰富:深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架。
  • 核心库极致优化:muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍。
  • 编程语言创新:推出面向AI+渲染融合的muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0,提升开发者调优自由度。

更关键的是,摩尔线程宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件,向开发者社区开放底层能力,加速生态构建。

不难看出,MUSA并未将自身定位为单纯的AI加速器,而是以“全功能GPU”为锚点,将AI能力深度嵌入图形渲染、物理仿真、量子计算等高价值垂直场景。

这种从通用底座向产业纵深延伸的架构哲学,使其区别于纯粹的大模型训练卡,而更接近英伟达CUDA生态早期“以通用可编程性撬动多元应用”的战略路径。

可以说,MUSA不仅是中国首个全功能GPU架构,更是对“下一代AI基础设施应长什么样”的一次系统性回答——它不再只是算力的提供者,而是多模态智能、具身智能乃至物理AI时代的关键使能平台。在这一意义上,摩尔线程的架构创新,已不仅是技术突破,更是对未来AI产业格局的一次主动定义。

而围绕着新升级的MUSA,摩尔线程此次还发布了更多重磅产品。

三个新芯片,两个新硬件,一个万卡集群

首先,基于花港架构,摩尔线程发布了两款芯片路线。

第一款是聚焦AI训推一体及高性能计算的GPU——华山

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

其核心亮点可总结为:

  • 全精度支持:从FP4到FP64,覆盖低精度训练与高精度科学计算。
  • MTFP4/MTFP6混合低精度加速:Attention计算从BF16向FP8甚至FP6演进,大幅提升Transformer吞吐。
  • 硬件级优化:原生支持矩阵rowmax计算、在线量化/反量化、随机舍入等算法,专为大模型训练定制。
  • 新一代异步编程模型:支持常驻核函数、线程束特化,极大提升并行效率。

从浮点算力、访存带宽、访存容量和高速互联带宽等维度来看,华山正在追赶英伟达的系列产品。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

华山的推出,标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产AI基础设施补上关键一环。

如果说华山主攻AI算力,那么接下来的GPU——庐山,则专为图形计算而生。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

相比上一代产品,其AI计算性能提升了惊人的64倍,3A游戏渲染性能提升15倍。

庐山引入了AI生成式渲染架构(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。这意味着,国产显卡正式迈入“光追+AI渲染”的新范式,不仅仅是“算”画面,更是“生成”画面。

除此之外,在端侧,摩尔线程首次推出了智能SoC芯片——长江

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

据了解,长江芯片不局限于传统PC或服务器,而是面向具身智能、车载、AI计算终端等端侧场景,提供50 TOPS的异构AI算力。

有了芯片,自然要有承载的载体。

基于长江芯片,摩尔线程此次还发布了两款硬件产品。

首先是MTT AIBOOK

这款算力本是专为AI学习与开发者打造的个人智算平台,运行基于Linux内核的MT AIOS操作系统,具备多系统兼容能力,并预置完整AI开发环境与工具链,通过虚拟化和安卓容器,可无缝运行Windows与安卓应用。开发者可直接在上面运行大模型、进行Agent开发。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

MTT AIBOOK内置的智能体小麦,还支持2K高清渲染、本地大模型(如MUSAChat-72B)、端侧ASR/TTS,使其从工具演变为超级个体助手。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

并且,MTT AIBOOK预装了智源悟界Emu3.5多模态模型,开箱即可实现文本生图、图像编辑。

此外,针对端侧场景,摩尔线程还推出了桌面AI小钢炮——AICube

它更像是一个高性能的AI计算魔方,让开发者在桌面上就能轻松获取算力支持,处理复杂的推理任务。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

最后,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群。在大模型领域,万卡集群是公认的入场券。

摩尔线程此次宣布,其万卡集群在Dense大模型上的算力利用率(MFU)达60%,在MOE大模型上达40%,有效训练时间占比超过90%。

最硬核的消息是:摩尔线程已完整复现了DeepSeek V3的FP8训练。依靠S5000对低精度算子的优化,其自研FP8 GEMM算力利用率高达90%。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

在这次大会上,摩尔线程还前瞻性地披露了下一代高密硬件基石——MTT C256超节点。这款产品采用了计算与交换一体化的高密设计,旨在系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

这一量级的表现,意味着其已具备与国际主流Hopper架构AI GPU正面竞争的实力,有望成为未来超大规模大模型训练和实时推理的国产化标准方案。

近期,摩尔线程还与硅基流动(SiliconFlow)联合宣布:基于硅基流动高性能推理引擎,双方已在摩尔线程MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证。

在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的性能新高。

这一成果不仅刷新了国产GPU的推理性能基准,更传递出一个关键信号:在成熟软件工程体系(如MUSA架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”。单位算力的有效利用率,正在成为国产AI芯片真正落地的关键指标。

生态,生态,还得看生态

在全球算力竞争日益白热化的今天,单一芯片的性能优势已不足以构建护城河。真正的壁垒在于软件生态、硬件协同、场景落地与开发者信任的综合能力。

摩尔线程的选择非常清晰:不走局部替代路线,而是以“MUSA架构+国产GPU+全场景产品”三位一体,打造一个从底层指令集到上层应用的完整生态闭环。这包括自研编译器、高性能算子库、对主流AI框架的广泛适配,以及通过AIBOOK等硬件入口产品,让开发者能够随时随地高效使用MUSA算力,实现软硬协同、端云一体的全场景覆盖。

开发者和开发生态是其中的关键一环。为此,摩尔线程打造了摩尔学院(MUSA开发者的成长平台)。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

截至2025年12月,摩尔学院已汇聚了20万名开发者。其目标是培育百万规模的MUSA开发者社群。通过提供从入门到精通的课程,并走进全国200所高校,借助产教融合、联合实验室以及“繁星计划”等竞赛,摩尔线程正从源头培养懂国产架构的原生代开发者。

这也印证了中国工程院院士、清华大学计算机系教授郑伟民的观点:“国产GPU的关键,在于要从能跑到愿意用。”

整体来看,当业界还在探讨“国产GPU能不能用”时,摩尔线程已通过从软件栈工具、硬件入口到人才培育的全链路布局,让开发者开始思考:“我的下一个项目,能不能全在MUSA生态里完成?”这或许才是真正的突破。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14211

(0)
上一篇 2025年12月21日 下午10:11
下一篇 2025年12月21日 下午10:11

相关推荐

  • AI浪潮下的开源危机:明星项目Tailwind CSS如何被生成式AI逼至绝境

    又一家初创公司,差点被AI干没了。 由于AI对我们业务的冲击,昨天,75%的工程师失去了工作。 明星开源项目Tailwind CSS 创造者Adam Wathan ,在GitHub上发布的这则消息,引起了科技行业的广泛关注。 Wathan表示,这家以前端开发闻名的公司,如今只剩下了三位老板、一位工程师和一位兼职员工。 我觉得自己很失败,我找不到其他办法了,这…

    2026年1月12日
    17100
  • 从统计物理到信息论:解码大模型第一性原理的三维理论框架

    2022年底ChatGPT的横空出世,标志着大模型时代的正式开启。短短三年间,从GPT系列到DeepSeek,再到Google Gemini 3的强势推出,大模型以惊人的速度迭代演进。仅在美国,AI领域的年度投资规模已超过许多国家全年GDP,这一数字背后反映的是全球对人工智能技术突破的狂热期待。然而,在技术狂欢的背后,一个根本性问题日益凸显:我们是否真正理解…

    2025年12月11日
    19500
  • 蚂蚁灵波开源最强具身智能大脑LingBot-VLA:20000小时真实数据验证Scaling Law,实现“一个大脑,多个身体”

    从3000小时到20000小时:真实数据验证Scaling Law 从3000小时到整整20000小时。 真实世界数据中的Scaling Law,直接催生了一个强大的VLA(视觉-语言-动作)基座模型! 这就是蚂蚁灵波最新开源的具身智能基座模型——LingBot-VLA。 为何称其为当前最强?首先看数据。 仅从“20000小时”这个规模来看,LingBot-…

    2026年1月28日
    39900
  • 从破折号到数据源:ChatGPT标点偏好背后的AI训练数据溯源

    近期,OpenAI首席执行官山姆·奥特曼亲自宣布ChatGPT修复了过度使用破折号的问题,这一看似细微的更新引发了广泛关注。为何一个标点符号的调整能成为AI领域的热点事件?这背后折射出的是大语言模型训练数据、人类反馈强化学习(RLHF)机制以及AI文本生成“数字指纹”等深层次议题。 破折号在ChatGPT输出中的泛滥,已成为用户识别AI生成文本的显著标志。在…

    2025年11月16日
    20500
  • 2026年工作流升级指南:10个现代Python库助你提升开发效率

    现代 Python 强调速度、清晰性和低摩擦。开发者期待能消除环境搭建之痛、缩短反馈回路的工具。 以下这些库可以在不增加复杂度的前提下,帮助你改进日常工作。 1. Pixi 📦 如果你曾花更多时间在排查虚拟环境而不是写代码上,Pixi 就是为你准备的。它是一个构建在 Conda 生态上的高性能包管理器,但针对速度与简洁做了优化。 为什么值得切换: 相比传统 …

    2026年1月26日
    22100