沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Accelerated Computing Architecture)作为异构计算软件栈的核心平台,集成了自研编译器、性能分析工具、格式转换组件等全套工具链,支持多语言、算子自动优化与跨框架平滑适配。它面向沐曦曦云C系列和曦思N系列GPU设计,是连接自研硬件与上层应用生态的关键纽带。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在芯片领域,硬件奠定算力基础,而软件栈则决定了算力能否被高效利用。长期以来,国产GPU面临的主要挑战并非纯粹的性能,而是生态兼容性问题。开发者已深度依赖英伟达的CUDA生态,迁移成本高昂。MACA 3.3.0.X版本正是为了应对这一痛点而设计,它是一套“生态强化版”软件栈,致力于构建一个“万能接口”,让现有生态能够近乎无缝地迁移至沐曦平台。

技术报告显示,沐曦团队对GitHub上4490个活跃的CUDA项目进行了适配测试,涵盖AI模型/应用、高性能并行计算、气象模拟、计算化学等多个领域。测试结果显示,高达92.94%(4173个)的项目可以直接适配运行,无需修改代码。仅有约6%(260个)的项目需要微调,且修改主要集中在编译配置层面,不涉及核心业务逻辑。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

这意味着海量的现有CUDA项目可以近乎“开箱即用”地迁移到沐曦平台,极大地降低了开发者在国产AI硬件上的学习成本和迁移工作量。

框架兼容:拥抱主流AI开发生态

MACA 3.3.0.X版本在框架兼容性上表现突出。它完成了对PyTorch 2.8的深度适配,覆盖了全部2650个核心算子,并支持多种数据形态。此外,MACA还兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM、SGLang等推理框架。在操作系统层面,它支持Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版,并完整支持混合精度训练、分布式训练等关键特性。

MACA不仅是一个兼容层,更是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层。

在开发效率引擎层,MACA提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention等,并配备了支持多种语言的编译器工具。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在垂直场景赋能层,MACA针对AI与科学计算两大方向进行优化。在AI领域,它优化了训练和推理框架,支持硬件流水线并行、INT8量化等技术。在科学计算领域,它通过重构MPI、BLAS库,并移植OpenFOAM、GROMACS等框架,以高效支撑流体仿真、分子动力学等应用。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

此外,MACA的性能分析工具能帮助开发者定位计算瓶颈,其完整的工具链支持从开发到部署的全流程工作。

算力到生产力的转化

MACA 3.3.0.X版本旨在构建一套全流程的一体化算力支撑底座。其硬件基础是沐曦自研的GPGPU及MetaXLink高速互连技术,为万卡级集群的分布式训练与推理提供了硬件保障。

在软件层面,MACA通过拓扑感知的高性能通信库和自研编译器优化模块,智能优化数据通信与计算策略,深度挖掘硬件潜力。一体化设计的优势在于打破了训练与推理的壁垒,支持模型从训练到部署的全流程贯通,大幅缩短了大模型的应用落地周期。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

该版本针对大模型推理等关键瓶颈进行了深度调优,进一步提升了平台的综合效能。

在关键算子上,MACA 针对 FlashAttention 进行了优化,显著降低了向 HBM 显存的数据搬运开销。通过对分布式集合通信库的优化,MACA 将千卡集群的训练和推理线性度稳定在 95% 以上,并将专家并行效率提升了 15%。此外,借助异步通信机制和通信-计算重叠优化,MACA 实现了数据传输任务与 GPU 计算任务的解耦并行,从而缩短了端到端延迟,并将 GPU 利用率提升了 15%-30%,有效解决了因等待数据通信而导致的芯片闲置问题。

在软件栈上层,沐曦进一步面向易用性和部署进行了优化:深度支持 PyTorch 2.0 的 torch.compile 动态图编译,以最大化硬件利用率;针对推理场景打造了轻量化引擎,通过优化批处理策略同时降低延迟并提升吞吐;全面兼容容器化与云原生架构,支持企业级的大规模弹性部署与便捷运维。

MACA 全面兼容当前主流的大模型生态体系,无需修改代码即可开展训练与推理。针对大规模大模型训练场景,其工具链能够缩短训练周期,在分布式训练中展现出优异的线性度,并可实现长周期无故障稳定运行。在推理时,MACA 通过对主流大模型的深度优化,有效降低了延迟并提升了吞吐量。同时,MACA 还具备从小规模调试到大规模训练推理的全场景平滑扩展能力。

实测数据表明,基于 MACA-3.3.0.X 构建的一体化算力底座在曦云 C 系列 GPU 上的训练推理效能,已展现出与国际旗舰 GPU 产品 A 正面竞争的实力。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

上图展示了 DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同参数规模(如 7B、13B)及任务类型(SFT、Pretrain)下的训练 TGS 数据,包含「旗舰 A TGS」(黄色柱)、「C550 TGS」(紫色柱)及两者效率比值(绿色折线)。

MACA 不仅是技术平台,也是沐曦「1+6+X」战略的核心组成部分。其中,「1」代表数字算力底座;「6」代表对金融、医疗健康、能源、教科研、交通和大文娱六大核心行业的赋能;「X」则代表对具身智能、低空经济等新兴行业的覆盖。

技术报告详细介绍了 MACA 在多个垂直场景的优化成果:
* 在搜广推场景,MACA 针对 TensorFlow/JAX 与 XLA 技术栈进行了深度协同适配,在部分模型中性能已达到甚至超过国际旗舰产品。
* 在传统小模型支持方面,MACA 提供了多模型格式兼容和底层计算优化,覆盖计算机视觉、自然语言处理及传统机器学习等核心场景。
* 在 AI for Science 领域,MACA 适配了 PaddleScience、WRF 数值模式等科学计算工具。
* 在材料科学、天气模拟、药物研发等领域,MACA 也对领域主流 AI 框架进行了适配。

这种场景化优化能力,使沐曦 GPU 能够针对特定行业需求提供优化方案,实现从算力到生产力的高效转化。

作为衔接自主 GPGPU 硬件与全栈软件体系的核心载体,MACA 3.3.0.X 的推出不仅是产品迭代,更体现了国产芯片厂商通过软件定义算力、通过标准重塑生态的长远布局。

沐曦提供了从 AI 芯片到软件核心平台的全栈自研能力。与部分厂商选择兼容 CUDA 或基于现有开源 ISA 进行微调的方式不同,沐曦选择了基于自主指令集的路线,保证了长期安全性与演进自主权。MACA 软件栈拥有自己的编程模型,同时也深度兼容 CUDA 生态,使海量 CUDA 项目无需大幅修改即可适配。沐曦 GPU 基于全自研 GPGPU 核心 IP 及架构,原生支持全精度计算、MetaXLink 高速互连等特性。

凭借自研体系,沐曦保证了算力体系的安全合规、性能针对性及自主权。同时,MACA 并未因全自研而要求生态推倒重来,而是构建了高度兼容的软件栈体系。这种“高门槛自研、低成本迁移”的策略,在确保算力自主的前提下,最大程度地兼容了现有海量的算法模型、软件资产与开发者技能,让开发者能够以最低的迁移成本,在自主算力底座上高效运行业务。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16299

(0)
上一篇 2025年12月29日 下午12:27
下一篇 2025年12月29日 下午1:07

相关推荐

  • SciencePedia:构建科学知识的动态进化图谱,重塑认知操作系统

    在信息爆炸与知识碎片化的时代,用户对深度、体系化科学知识的需求日益增长,而传统知识平台正面临多重挑战。维基百科虽在原理陈列上具有权威性,但其静态条目结构难以呈现知识的动态演化与跨学科关联;ArXiv等学术平台聚焦最终结论,却缺乏对科学发现过程的还原;通用AI助手虽能快速响应,但受限于浅层检索与幻觉风险,无法支撑系统性的科学认知构建。马斯克推出的Grokipe…

    2025年10月30日
    24800
  • AI巨头论战:LeCun与哈萨比斯激辩智能本质,马斯克站队引热议

    一场关于智能本质的激烈辩论正在顶级AI研究者之间展开。 AI三巨头之一、图灵奖得主Yann LeCun近日公开表示: 纯粹就是胡扯(complete BS)。 而诺贝尔奖得主、谷歌DeepMind CEO德米斯·哈萨比斯则毫不留情地回击: LeCun的说法简直是大错特错。 这场论战引发了广泛关注,甚至让社交平台𝕏专门开辟了相关话题板块。 科技企业家埃隆·马斯…

    2025年12月24日
    21900
  • 突破视觉AI能效瓶颈:清华团队提出类人主动感知新范式AdaptiveNN

    视觉是人类认知物理世界的核心通道,赋予计算机类人视觉能力是人工智能领域长期追求的目标。这一能力对多模态基础模型、具身智能、医疗AI等前沿方向具有基础性支撑作用。过去数十年间,计算机视觉技术取得显著进展,在图像识别、目标检测、多模态理解等任务上已达到甚至超越人类专家水平。然而,当前主流的高精度视觉模型在实际部署中面临严峻挑战:这些模型通常需要激活数亿参数来处理…

    2025年11月28日
    17900
  • AI普惠革命:从技术精英到全民触达,新兴市场如何成为AI终局的关键战场

    在2025年这个被称为“AI大年”的时间节点,一个令人深思的现象正在全球范围内浮现:尽管AI技术日新月异,但全球超过99.5%的普通人仍然无法真正享受到AI带来的生产力红利。这种普及率与应用密度的严重失衡,揭示了当前AI产业发展的深层结构性矛盾。 与舆论在“AI技术狂欢”与“AI泡沫破裂”两极间摇摆不同,Agnes AI创始人Bruce Yang敏锐地洞察到…

    2025年12月1日
    16100
  • Vidu Agent深度评测:AI视频创作从“片段生成”到“专业拍片”的范式革命

    2025年,视频生成AI领域正经历着前所未有的技术竞赛。谷歌Veo 3、OpenAI Sora 2、Runway Gen-4.5以及本土的Vidu等模型相继推出,参数规模不断刷新纪录,演示视频一个比一个惊艳。然而,在这场看似繁荣的技术狂欢背后,一个根本性问题逐渐浮出水面:AI能够生成高质量的视频片段,但真正“会拍片”的模型仍然凤毛麟角。创意如何系统化拆解?镜…

    2025年12月17日
    15400