摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

上市仅15天后,摩尔线程便将首个大动作直接指向了生态的核心——开发者。

在首届、也是国内首个聚焦全功能GPU的开发者大会上,围绕MUSA这一关键词,新品密集发布:

  • 一个全新GPU架构:花港,算力密度提升50%,能效提升10倍。
  • 三款新芯片:华山、庐山、长江,分别聚焦AI训推一体、图形渲染和智能SoC。
  • 一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自主研发的AI Foundry。
  • 两款硬件产品:专为开发者打造的AIBOOK和AICube。

这并非零散的产品更新,而是摩尔线程打出的一套从云到端、从算力到生态的组合拳。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

在长达两个多小时的发布中,最直观的感受是,摩尔线程已将国产GPU推向了新的高度。

接下来,我们从最核心的全新GPU架构“花港”为起点,对此次开发者大会一探究竟。

MUSA,已成为全功能GPU架构的代名词

什么是MUSA?

其全称为Meta-computing Unified System Architecture(元计算统一系统架构),是摩尔线程自主研发的统一计算架构。

如何理解?可以说,从芯片架构、指令集、编程模型,到软件运行库及驱动程序框架,均属于MUSA的范畴。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

历经五年发展,MUSA已完整定义了全功能GPU从芯片设计到软件生态的统一技术标准,并支持AI计算、图形渲染、物理仿真、科学计算及超高清视频编解码等全场景高性能计算。

纵观MUSA硬件架构的迭代历程,从苏堤、春晓、曲院到平湖,每一次升级都在探索GPU算力的边界。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

最新发布的第五代全功能GPU架构“花港”,亦是如此:

  • 算力密度提升50%:在同等芯片面积下,可部署更多计算单元。
  • 计算能效提升10倍:单位瓦特性能大幅优化,为大规模智算集群提供绿色底座。
  • 新增FP4计算:从FP4、FP6、FP8到FP16、BF16乃至FP64,实现全精度端到端计算,覆盖AI、HPC、图形等全场景需求。
  • 支持十万卡集群:通过MTLink高速互联,为超大规模模型训练铺平道路。

尤为值得关注的是,花港在低精度计算上的深度优化。架构新增了MTFP6/MTFP4及混合低精度端到端加速技术,专为未来AI主流场景——低比特训练与推理而生。

在Attention机制的关键路径上,花港原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,并内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎(如MT Transformer Engine)提供底层支撑。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

如果说硬件架构是能力的基石,那么软件栈就是将这些能力交付给开发者的具体路径。

除架构本身外,摩尔线程此次同步推出了MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链:

  • AI框架广泛适配:除PyTorch、PaddlePaddle外,新增对JAX、TensorFlow的支持。
  • 训练生态扩展:在Megatron、DeepSpeed基础上,新增强化学习训练框架MT VeRL。
  • 推理引擎丰富:深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架。
  • 核心库极致优化:muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍。
  • 编程语言创新:推出面向AI+渲染融合的muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0,提升开发者调优自由度。

更关键的是,摩尔线程宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件,向开发者社区开放底层能力,加速生态构建。

不难看出,MUSA并未将自身定位为单纯的AI加速器,而是以“全功能GPU”为锚点,将AI能力深度嵌入图形渲染、物理仿真、量子计算等高价值垂直场景。

这种从通用底座向产业纵深延伸的架构哲学,使其区别于纯粹的大模型训练卡,而更接近英伟达CUDA生态早期“以通用可编程性撬动多元应用”的战略路径。

可以说,MUSA不仅是中国首个全功能GPU架构,更是对“下一代AI基础设施应长什么样”的一次系统性回答——它不再只是算力的提供者,而是多模态智能、具身智能乃至物理AI时代的关键使能平台。在这一意义上,摩尔线程的架构创新,已不仅是技术突破,更是对未来AI产业格局的一次主动定义。

而围绕着新升级的MUSA,摩尔线程此次还发布了更多重磅产品。

三个新芯片,两个新硬件,一个万卡集群

首先,基于花港架构,摩尔线程发布了两款芯片路线。

第一款是聚焦AI训推一体及高性能计算的GPU——华山

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

其核心亮点可总结为:

  • 全精度支持:从FP4到FP64,覆盖低精度训练与高精度科学计算。
  • MTFP4/MTFP6混合低精度加速:Attention计算从BF16向FP8甚至FP6演进,大幅提升Transformer吞吐。
  • 硬件级优化:原生支持矩阵rowmax计算、在线量化/反量化、随机舍入等算法,专为大模型训练定制。
  • 新一代异步编程模型:支持常驻核函数、线程束特化,极大提升并行效率。

从浮点算力、访存带宽、访存容量和高速互联带宽等维度来看,华山正在追赶英伟达的系列产品。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

华山的推出,标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产AI基础设施补上关键一环。

如果说华山主攻AI算力,那么接下来的GPU——庐山,则专为图形计算而生。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

相比上一代产品,其AI计算性能提升了惊人的64倍,3A游戏渲染性能提升15倍。

庐山引入了AI生成式渲染架构(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。这意味着,国产显卡正式迈入“光追+AI渲染”的新范式,不仅仅是“算”画面,更是“生成”画面。

除此之外,在端侧,摩尔线程首次推出了智能SoC芯片——长江

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

据了解,长江芯片不局限于传统PC或服务器,而是面向具身智能、车载、AI计算终端等端侧场景,提供50 TOPS的异构AI算力。

有了芯片,自然要有承载的载体。

基于长江芯片,摩尔线程此次还发布了两款硬件产品。

首先是MTT AIBOOK

这款算力本是专为AI学习与开发者打造的个人智算平台,运行基于Linux内核的MT AIOS操作系统,具备多系统兼容能力,并预置完整AI开发环境与工具链,通过虚拟化和安卓容器,可无缝运行Windows与安卓应用。开发者可直接在上面运行大模型、进行Agent开发。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

MTT AIBOOK内置的智能体小麦,还支持2K高清渲染、本地大模型(如MUSAChat-72B)、端侧ASR/TTS,使其从工具演变为超级个体助手。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

并且,MTT AIBOOK预装了智源悟界Emu3.5多模态模型,开箱即可实现文本生图、图像编辑。

此外,针对端侧场景,摩尔线程还推出了桌面AI小钢炮——AICube

它更像是一个高性能的AI计算魔方,让开发者在桌面上就能轻松获取算力支持,处理复杂的推理任务。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

最后,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群。在大模型领域,万卡集群是公认的入场券。

摩尔线程此次宣布,其万卡集群在Dense大模型上的算力利用率(MFU)达60%,在MOE大模型上达40%,有效训练时间占比超过90%。

最硬核的消息是:摩尔线程已完整复现了DeepSeek V3的FP8训练。依靠S5000对低精度算子的优化,其自研FP8 GEMM算力利用率高达90%。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

在这次大会上,摩尔线程还前瞻性地披露了下一代高密硬件基石——MTT C256超节点。这款产品采用了计算与交换一体化的高密设计,旨在系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

这一量级的表现,意味着其已具备与国际主流Hopper架构AI GPU正面竞争的实力,有望成为未来超大规模大模型训练和实时推理的国产化标准方案。

近期,摩尔线程还与硅基流动(SiliconFlow)联合宣布:基于硅基流动高性能推理引擎,双方已在摩尔线程MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证。

在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的性能新高。

这一成果不仅刷新了国产GPU的推理性能基准,更传递出一个关键信号:在成熟软件工程体系(如MUSA架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”。单位算力的有效利用率,正在成为国产AI芯片真正落地的关键指标。

生态,生态,还得看生态

在全球算力竞争日益白热化的今天,单一芯片的性能优势已不足以构建护城河。真正的壁垒在于软件生态、硬件协同、场景落地与开发者信任的综合能力。

摩尔线程的选择非常清晰:不走局部替代路线,而是以“MUSA架构+国产GPU+全场景产品”三位一体,打造一个从底层指令集到上层应用的完整生态闭环。这包括自研编译器、高性能算子库、对主流AI框架的广泛适配,以及通过AIBOOK等硬件入口产品,让开发者能够随时随地高效使用MUSA算力,实现软硬协同、端云一体的全场景覆盖。

开发者和开发生态是其中的关键一环。为此,摩尔线程打造了摩尔学院(MUSA开发者的成长平台)。

摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

截至2025年12月,摩尔学院已汇聚了20万名开发者。其目标是培育百万规模的MUSA开发者社群。通过提供从入门到精通的课程,并走进全国200所高校,借助产教融合、联合实验室以及“繁星计划”等竞赛,摩尔线程正从源头培养懂国产架构的原生代开发者。

这也印证了中国工程院院士、清华大学计算机系教授郑伟民的观点:“国产GPU的关键,在于要从能跑到愿意用。”

整体来看,当业界还在探讨“国产GPU能不能用”时,摩尔线程已通过从软件栈工具、硬件入口到人才培育的全链路布局,让开发者开始思考:“我的下一个项目,能不能全在MUSA生态里完成?”这或许才是真正的突破。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14211

(0)
上一篇 2025年12月21日 下午10:11
下一篇 2025年12月21日 下午10:11

相关推荐

  • DeepSeek V4架构革命:mHC与Engram双核创新,颠覆传统编程工作模式

    2026年春节临近,全球AI圈迎来重磅传闻——中国AI实验室DeepSeek预计将在春节假期期间,正式发布其第四代旗舰大模型DeepSeek V4。 多方信源证实,这款承载着架构革命使命的大模型已进入最终筹备阶段,大概率将延续去年春节前发布R1模型的节奏。其带来的技术突破不仅将改写大模型行业格局,更将彻底颠覆程序员延续数十年的传统工作模式,同时重构整个AI算…

    2026年2月7日
    22300
  • 谷歌地图重磅升级!Gemini驱动“Ask Maps”和“沉浸式导航”两大功能,旅行规划应用面临挑战

    谷歌地图重磅升级:Gemini驱动“Ask Maps”与“沉浸式导航” 谷歌正持续将其强大的Gemini模型能力深度整合至旗下产品。近日,谷歌正式宣布为谷歌地图推出两项由Gemini驱动的新功能:“Ask Maps”与“沉浸式导航”。 此次更新被官方称为谷歌地图十多年来的最大升级,引发了广泛关注。 核心功能解析 1. Ask Maps:对话式智能规划 用户可…

    4天前
    13000
  • AlphaFold五周年:从蛋白质结构预测到AI大模型融合的生命科学新纪元

    正值AlphaFold问世五周年之际,其核心设计者、诺贝尔化学奖得主John Jumper公开透露了该技术的下一步发展方向:与更广泛的AI大模型进行深度融合。这一声明标志着AlphaFold正从单一的结构预测工具,向具备科学推理能力的综合性AI科研平台演进。 回顾过去五年,AlphaFold已彻底改变了结构生物学的研究范式。据统计,该技术已帮助全球超过300…

    2025年11月28日
    17000
  • 从通用到专业:Libcom工作台如何重塑图像合成领域的精准编辑范式

    在2025年AIGC技术持续爆发的浪潮中,图像生成与编辑已成为数字内容创作的核心驱动力。从社交媒体的个性化头像到电商平台的动态海报,再到影视行业的预可视化分镜,AI生成内容正以前所未有的速度渗透至日常创作的各个环节。以Nano Banana、Qwen Edit为代表的通用图像编辑大模型凭借其强大的泛化能力,覆盖了从基础修图到复杂场景构建的广泛需求。特别是Na…

    2025年11月25日
    16800
  • OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线

    “ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…

    2026年1月23日
    28600