
近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。

在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Accelerated Computing Architecture)作为异构计算软件栈的核心平台,集成了自研编译器、性能分析工具、格式转换组件等全套工具链,支持多语言、算子自动优化与跨框架平滑适配。它面向沐曦曦云C系列和曦思N系列GPU设计,是连接自研硬件与上层应用生态的关键纽带。

在芯片领域,硬件奠定算力基础,而软件栈则决定了算力能否被高效利用。长期以来,国产GPU面临的主要挑战并非纯粹的性能,而是生态兼容性问题。开发者已深度依赖英伟达的CUDA生态,迁移成本高昂。MACA 3.3.0.X版本正是为了应对这一痛点而设计,它是一套“生态强化版”软件栈,致力于构建一个“万能接口”,让现有生态能够近乎无缝地迁移至沐曦平台。
技术报告显示,沐曦团队对GitHub上4490个活跃的CUDA项目进行了适配测试,涵盖AI模型/应用、高性能并行计算、气象模拟、计算化学等多个领域。测试结果显示,高达92.94%(4173个)的项目可以直接适配运行,无需修改代码。仅有约6%(260个)的项目需要微调,且修改主要集中在编译配置层面,不涉及核心业务逻辑。

这意味着海量的现有CUDA项目可以近乎“开箱即用”地迁移到沐曦平台,极大地降低了开发者在国产AI硬件上的学习成本和迁移工作量。
框架兼容:拥抱主流AI开发生态
MACA 3.3.0.X版本在框架兼容性上表现突出。它完成了对PyTorch 2.8的深度适配,覆盖了全部2650个核心算子,并支持多种数据形态。此外,MACA还兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM、SGLang等推理框架。在操作系统层面,它支持Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版,并完整支持混合精度训练、分布式训练等关键特性。
MACA不仅是一个兼容层,更是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层。
在开发效率引擎层,MACA提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention等,并配备了支持多种语言的编译器工具。

在垂直场景赋能层,MACA针对AI与科学计算两大方向进行优化。在AI领域,它优化了训练和推理框架,支持硬件流水线并行、INT8量化等技术。在科学计算领域,它通过重构MPI、BLAS库,并移植OpenFOAM、GROMACS等框架,以高效支撑流体仿真、分子动力学等应用。

此外,MACA的性能分析工具能帮助开发者定位计算瓶颈,其完整的工具链支持从开发到部署的全流程工作。
算力到生产力的转化
MACA 3.3.0.X版本旨在构建一套全流程的一体化算力支撑底座。其硬件基础是沐曦自研的GPGPU及MetaXLink高速互连技术,为万卡级集群的分布式训练与推理提供了硬件保障。
在软件层面,MACA通过拓扑感知的高性能通信库和自研编译器优化模块,智能优化数据通信与计算策略,深度挖掘硬件潜力。一体化设计的优势在于打破了训练与推理的壁垒,支持模型从训练到部署的全流程贯通,大幅缩短了大模型的应用落地周期。

该版本针对大模型推理等关键瓶颈进行了深度调优,进一步提升了平台的综合效能。
在关键算子上,MACA 针对 FlashAttention 进行了优化,显著降低了向 HBM 显存的数据搬运开销。通过对分布式集合通信库的优化,MACA 将千卡集群的训练和推理线性度稳定在 95% 以上,并将专家并行效率提升了 15%。此外,借助异步通信机制和通信-计算重叠优化,MACA 实现了数据传输任务与 GPU 计算任务的解耦并行,从而缩短了端到端延迟,并将 GPU 利用率提升了 15%-30%,有效解决了因等待数据通信而导致的芯片闲置问题。
在软件栈上层,沐曦进一步面向易用性和部署进行了优化:深度支持 PyTorch 2.0 的 torch.compile 动态图编译,以最大化硬件利用率;针对推理场景打造了轻量化引擎,通过优化批处理策略同时降低延迟并提升吞吐;全面兼容容器化与云原生架构,支持企业级的大规模弹性部署与便捷运维。
MACA 全面兼容当前主流的大模型生态体系,无需修改代码即可开展训练与推理。针对大规模大模型训练场景,其工具链能够缩短训练周期,在分布式训练中展现出优异的线性度,并可实现长周期无故障稳定运行。在推理时,MACA 通过对主流大模型的深度优化,有效降低了延迟并提升了吞吐量。同时,MACA 还具备从小规模调试到大规模训练推理的全场景平滑扩展能力。
实测数据表明,基于 MACA-3.3.0.X 构建的一体化算力底座在曦云 C 系列 GPU 上的训练推理效能,已展现出与国际旗舰 GPU 产品 A 正面竞争的实力。

上图展示了 DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同参数规模(如 7B、13B)及任务类型(SFT、Pretrain)下的训练 TGS 数据,包含「旗舰 A TGS」(黄色柱)、「C550 TGS」(紫色柱)及两者效率比值(绿色折线)。
MACA 不仅是技术平台,也是沐曦「1+6+X」战略的核心组成部分。其中,「1」代表数字算力底座;「6」代表对金融、医疗健康、能源、教科研、交通和大文娱六大核心行业的赋能;「X」则代表对具身智能、低空经济等新兴行业的覆盖。
技术报告详细介绍了 MACA 在多个垂直场景的优化成果:
* 在搜广推场景,MACA 针对 TensorFlow/JAX 与 XLA 技术栈进行了深度协同适配,在部分模型中性能已达到甚至超过国际旗舰产品。
* 在传统小模型支持方面,MACA 提供了多模型格式兼容和底层计算优化,覆盖计算机视觉、自然语言处理及传统机器学习等核心场景。
* 在 AI for Science 领域,MACA 适配了 PaddleScience、WRF 数值模式等科学计算工具。
* 在材料科学、天气模拟、药物研发等领域,MACA 也对领域主流 AI 框架进行了适配。
这种场景化优化能力,使沐曦 GPU 能够针对特定行业需求提供优化方案,实现从算力到生产力的高效转化。
作为衔接自主 GPGPU 硬件与全栈软件体系的核心载体,MACA 3.3.0.X 的推出不仅是产品迭代,更体现了国产芯片厂商通过软件定义算力、通过标准重塑生态的长远布局。
沐曦提供了从 AI 芯片到软件核心平台的全栈自研能力。与部分厂商选择兼容 CUDA 或基于现有开源 ISA 进行微调的方式不同,沐曦选择了基于自主指令集的路线,保证了长期安全性与演进自主权。MACA 软件栈拥有自己的编程模型,同时也深度兼容 CUDA 生态,使海量 CUDA 项目无需大幅修改即可适配。沐曦 GPU 基于全自研 GPGPU 核心 IP 及架构,原生支持全精度计算、MetaXLink 高速互连等特性。
凭借自研体系,沐曦保证了算力体系的安全合规、性能针对性及自主权。同时,MACA 并未因全自研而要求生态推倒重来,而是构建了高度兼容的软件栈体系。这种“高门槛自研、低成本迁移”的策略,在确保算力自主的前提下,最大程度地兼容了现有海量的算法模型、软件资产与开发者技能,让开发者能够以最低的迁移成本,在自主算力底座上高效运行业务。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16299
