沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Accelerated Computing Architecture)作为异构计算软件栈的核心平台,集成了自研编译器、性能分析工具、格式转换组件等全套工具链,支持多语言、算子自动优化与跨框架平滑适配。它面向沐曦曦云C系列和曦思N系列GPU设计,是连接自研硬件与上层应用生态的关键纽带。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在芯片领域,硬件奠定算力基础,而软件栈则决定了算力能否被高效利用。长期以来,国产GPU面临的主要挑战并非纯粹的性能,而是生态兼容性问题。开发者已深度依赖英伟达的CUDA生态,迁移成本高昂。MACA 3.3.0.X版本正是为了应对这一痛点而设计,它是一套“生态强化版”软件栈,致力于构建一个“万能接口”,让现有生态能够近乎无缝地迁移至沐曦平台。

技术报告显示,沐曦团队对GitHub上4490个活跃的CUDA项目进行了适配测试,涵盖AI模型/应用、高性能并行计算、气象模拟、计算化学等多个领域。测试结果显示,高达92.94%(4173个)的项目可以直接适配运行,无需修改代码。仅有约6%(260个)的项目需要微调,且修改主要集中在编译配置层面,不涉及核心业务逻辑。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

这意味着海量的现有CUDA项目可以近乎“开箱即用”地迁移到沐曦平台,极大地降低了开发者在国产AI硬件上的学习成本和迁移工作量。

框架兼容:拥抱主流AI开发生态

MACA 3.3.0.X版本在框架兼容性上表现突出。它完成了对PyTorch 2.8的深度适配,覆盖了全部2650个核心算子,并支持多种数据形态。此外,MACA还兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM、SGLang等推理框架。在操作系统层面,它支持Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版,并完整支持混合精度训练、分布式训练等关键特性。

MACA不仅是一个兼容层,更是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层。

在开发效率引擎层,MACA提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention等,并配备了支持多种语言的编译器工具。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在垂直场景赋能层,MACA针对AI与科学计算两大方向进行优化。在AI领域,它优化了训练和推理框架,支持硬件流水线并行、INT8量化等技术。在科学计算领域,它通过重构MPI、BLAS库,并移植OpenFOAM、GROMACS等框架,以高效支撑流体仿真、分子动力学等应用。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

此外,MACA的性能分析工具能帮助开发者定位计算瓶颈,其完整的工具链支持从开发到部署的全流程工作。

算力到生产力的转化

MACA 3.3.0.X版本旨在构建一套全流程的一体化算力支撑底座。其硬件基础是沐曦自研的GPGPU及MetaXLink高速互连技术,为万卡级集群的分布式训练与推理提供了硬件保障。

在软件层面,MACA通过拓扑感知的高性能通信库和自研编译器优化模块,智能优化数据通信与计算策略,深度挖掘硬件潜力。一体化设计的优势在于打破了训练与推理的壁垒,支持模型从训练到部署的全流程贯通,大幅缩短了大模型的应用落地周期。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

该版本针对大模型推理等关键瓶颈进行了深度调优,进一步提升了平台的综合效能。

在关键算子上,MACA 针对 FlashAttention 进行了优化,显著降低了向 HBM 显存的数据搬运开销。通过对分布式集合通信库的优化,MACA 将千卡集群的训练和推理线性度稳定在 95% 以上,并将专家并行效率提升了 15%。此外,借助异步通信机制和通信-计算重叠优化,MACA 实现了数据传输任务与 GPU 计算任务的解耦并行,从而缩短了端到端延迟,并将 GPU 利用率提升了 15%-30%,有效解决了因等待数据通信而导致的芯片闲置问题。

在软件栈上层,沐曦进一步面向易用性和部署进行了优化:深度支持 PyTorch 2.0 的 torch.compile 动态图编译,以最大化硬件利用率;针对推理场景打造了轻量化引擎,通过优化批处理策略同时降低延迟并提升吞吐;全面兼容容器化与云原生架构,支持企业级的大规模弹性部署与便捷运维。

MACA 全面兼容当前主流的大模型生态体系,无需修改代码即可开展训练与推理。针对大规模大模型训练场景,其工具链能够缩短训练周期,在分布式训练中展现出优异的线性度,并可实现长周期无故障稳定运行。在推理时,MACA 通过对主流大模型的深度优化,有效降低了延迟并提升了吞吐量。同时,MACA 还具备从小规模调试到大规模训练推理的全场景平滑扩展能力。

实测数据表明,基于 MACA-3.3.0.X 构建的一体化算力底座在曦云 C 系列 GPU 上的训练推理效能,已展现出与国际旗舰 GPU 产品 A 正面竞争的实力。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

上图展示了 DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同参数规模(如 7B、13B)及任务类型(SFT、Pretrain)下的训练 TGS 数据,包含「旗舰 A TGS」(黄色柱)、「C550 TGS」(紫色柱)及两者效率比值(绿色折线)。

MACA 不仅是技术平台,也是沐曦「1+6+X」战略的核心组成部分。其中,「1」代表数字算力底座;「6」代表对金融、医疗健康、能源、教科研、交通和大文娱六大核心行业的赋能;「X」则代表对具身智能、低空经济等新兴行业的覆盖。

技术报告详细介绍了 MACA 在多个垂直场景的优化成果:
* 在搜广推场景,MACA 针对 TensorFlow/JAX 与 XLA 技术栈进行了深度协同适配,在部分模型中性能已达到甚至超过国际旗舰产品。
* 在传统小模型支持方面,MACA 提供了多模型格式兼容和底层计算优化,覆盖计算机视觉、自然语言处理及传统机器学习等核心场景。
* 在 AI for Science 领域,MACA 适配了 PaddleScience、WRF 数值模式等科学计算工具。
* 在材料科学、天气模拟、药物研发等领域,MACA 也对领域主流 AI 框架进行了适配。

这种场景化优化能力,使沐曦 GPU 能够针对特定行业需求提供优化方案,实现从算力到生产力的高效转化。

作为衔接自主 GPGPU 硬件与全栈软件体系的核心载体,MACA 3.3.0.X 的推出不仅是产品迭代,更体现了国产芯片厂商通过软件定义算力、通过标准重塑生态的长远布局。

沐曦提供了从 AI 芯片到软件核心平台的全栈自研能力。与部分厂商选择兼容 CUDA 或基于现有开源 ISA 进行微调的方式不同,沐曦选择了基于自主指令集的路线,保证了长期安全性与演进自主权。MACA 软件栈拥有自己的编程模型,同时也深度兼容 CUDA 生态,使海量 CUDA 项目无需大幅修改即可适配。沐曦 GPU 基于全自研 GPGPU 核心 IP 及架构,原生支持全精度计算、MetaXLink 高速互连等特性。

凭借自研体系,沐曦保证了算力体系的安全合规、性能针对性及自主权。同时,MACA 并未因全自研而要求生态推倒重来,而是构建了高度兼容的软件栈体系。这种“高门槛自研、低成本迁移”的策略,在确保算力自主的前提下,最大程度地兼容了现有海量的算法模型、软件资产与开发者技能,让开发者能够以最低的迁移成本,在自主算力底座上高效运行业务。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16299

(0)
上一篇 2025年12月29日 下午12:27
下一篇 2025年12月29日 下午1:07

相关推荐

  • Cursor 2.0 正式发布:自研模型 Composer 与多智能体协作界面同步上线

    Cursor 2.0 正式发布,推出自研编码模型 Composer 及多智能体并行协作界面。Composer 在编码智能上达到前沿水平,生成速度达每秒 250 个 token,为同类模型的四倍,支持低延迟交互式编程。新版本界面以智能体为中心,支持多任务并行处理,并优化了代码评审与测试流程。此次更新标志着 Cursor 从依赖第三方模型的“AI 外壳”转型为“AI 原生平台”。

    2025年10月30日
    59600
  • 移动传感器隐私防护新突破:PATN框架实现实时对抗扰动与数据保真双赢

    在移动互联网时代,智能手机已成为人们日常生活中不可或缺的智能终端。移动应用通过Android和iOS系统接口获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步、手势交互、游戏控制、健康监测等众多核心功能,构成了现代移动服务的技术基石。然而,传感器数据的高度细粒度特性在带来丰富应用可能性的同时,也埋下了严重的隐私安全隐患。近年来多项研究表明,看…

    2025年12月8日
    9100
  • 昆仑万维SkyReels:多模态AI视频创作平台的范式革新与全链路布局

    在AI视频生成技术快速迭代的当下,行业竞争已从单一模型性能比拼,转向更全面的创作生态构建。近期,昆仑万维正式推出全新一站式多模态AI视频创作平台SkyReels,并同步发布SkyReels V3视频生成模型,标志着国内AI视频赛道正从“工具化”向“平台化”深度演进。 从技术演进路径来看,AI视频生成经历了三个关键阶段:早期基于扩散模型的单帧生成、中期时序一致…

    2025年11月4日
    8500
  • AI重构游戏开发范式:从引擎集成到全生命周期赋能的技术演进

    在上海举办的2025 Unity开发者大会上,”AI+游戏”的融合趋势得到了系统性展示,标志着游戏产业正经历从辅助工具到核心引擎的技术范式转移。这一变革不仅体现在开发效率的量化提升,更深入到创意生成、资产制作、运维管理等全链条环节,预示着游戏行业将迎来新一轮生产力革命。 从技术演进路径看,AI在游戏领域的应用已从早期的概念验证阶段,进…

    2025年11月1日
    7800
  • AI对齐危机:从奖励黑客到系统性失调的深度剖析

    近期,Anthropic发布的一项对齐研究在AI领域引发广泛关注,该研究首次系统性地揭示了在现实训练流程中,AI模型可能无意间发展出不受控行为的潜在风险。这一发现不仅对当前的大模型安全研究提出了严峻挑战,更促使整个行业重新审视现有训练范式的根本缺陷。 研究团队通过文学隐喻——莎士比亚《李尔王》中的反派角色Edmund——生动地阐释了核心问题:当个体被贴上特定…

    2025年12月1日
    9400