沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Accelerated Computing Architecture)作为异构计算软件栈的核心平台,集成了自研编译器、性能分析工具、格式转换组件等全套工具链,支持多语言、算子自动优化与跨框架平滑适配。它面向沐曦曦云C系列和曦思N系列GPU设计,是连接自研硬件与上层应用生态的关键纽带。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在芯片领域,硬件奠定算力基础,而软件栈则决定了算力能否被高效利用。长期以来,国产GPU面临的主要挑战并非纯粹的性能,而是生态兼容性问题。开发者已深度依赖英伟达的CUDA生态,迁移成本高昂。MACA 3.3.0.X版本正是为了应对这一痛点而设计,它是一套“生态强化版”软件栈,致力于构建一个“万能接口”,让现有生态能够近乎无缝地迁移至沐曦平台。

技术报告显示,沐曦团队对GitHub上4490个活跃的CUDA项目进行了适配测试,涵盖AI模型/应用、高性能并行计算、气象模拟、计算化学等多个领域。测试结果显示,高达92.94%(4173个)的项目可以直接适配运行,无需修改代码。仅有约6%(260个)的项目需要微调,且修改主要集中在编译配置层面,不涉及核心业务逻辑。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

这意味着海量的现有CUDA项目可以近乎“开箱即用”地迁移到沐曦平台,极大地降低了开发者在国产AI硬件上的学习成本和迁移工作量。

框架兼容:拥抱主流AI开发生态

MACA 3.3.0.X版本在框架兼容性上表现突出。它完成了对PyTorch 2.8的深度适配,覆盖了全部2650个核心算子,并支持多种数据形态。此外,MACA还兼容TensorFlow、PaddlePaddle、JAX等主流开源框架,以及Megatron-LM、DeepSpeed等大模型训练框架和vLLM、SGLang等推理框架。在操作系统层面,它支持Ubuntu、CentOS、RHEL、openEuler、Anolis OS、银河麒麟等主流Linux发行版,并完整支持混合精度训练、分布式训练等关键特性。

MACA不仅是一个兼容层,更是一个完整的软件栈,包含开发效率引擎层和垂直场景赋能层。

在开发效率引擎层,MACA提供了一系列针对沐曦GPU优化的高性能算子库,如mcBLAS、mcDNN、mcFlashAttention等,并配备了支持多种语言的编译器工具。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

在垂直场景赋能层,MACA针对AI与科学计算两大方向进行优化。在AI领域,它优化了训练和推理框架,支持硬件流水线并行、INT8量化等技术。在科学计算领域,它通过重构MPI、BLAS库,并移植OpenFOAM、GROMACS等框架,以高效支撑流体仿真、分子动力学等应用。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

此外,MACA的性能分析工具能帮助开发者定位计算瓶颈,其完整的工具链支持从开发到部署的全流程工作。

算力到生产力的转化

MACA 3.3.0.X版本旨在构建一套全流程的一体化算力支撑底座。其硬件基础是沐曦自研的GPGPU及MetaXLink高速互连技术,为万卡级集群的分布式训练与推理提供了硬件保障。

在软件层面,MACA通过拓扑感知的高性能通信库和自研编译器优化模块,智能优化数据通信与计算策略,深度挖掘硬件潜力。一体化设计的优势在于打破了训练与推理的壁垒,支持模型从训练到部署的全流程贯通,大幅缩短了大模型的应用落地周期。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

该版本针对大模型推理等关键瓶颈进行了深度调优,进一步提升了平台的综合效能。

在关键算子上,MACA 针对 FlashAttention 进行了优化,显著降低了向 HBM 显存的数据搬运开销。通过对分布式集合通信库的优化,MACA 将千卡集群的训练和推理线性度稳定在 95% 以上,并将专家并行效率提升了 15%。此外,借助异步通信机制和通信-计算重叠优化,MACA 实现了数据传输任务与 GPU 计算任务的解耦并行,从而缩短了端到端延迟,并将 GPU 利用率提升了 15%-30%,有效解决了因等待数据通信而导致的芯片闲置问题。

在软件栈上层,沐曦进一步面向易用性和部署进行了优化:深度支持 PyTorch 2.0 的 torch.compile 动态图编译,以最大化硬件利用率;针对推理场景打造了轻量化引擎,通过优化批处理策略同时降低延迟并提升吞吐;全面兼容容器化与云原生架构,支持企业级的大规模弹性部署与便捷运维。

MACA 全面兼容当前主流的大模型生态体系,无需修改代码即可开展训练与推理。针对大规模大模型训练场景,其工具链能够缩短训练周期,在分布式训练中展现出优异的线性度,并可实现长周期无故障稳定运行。在推理时,MACA 通过对主流大模型的深度优化,有效降低了延迟并提升了吞吐量。同时,MACA 还具备从小规模调试到大规模训练推理的全场景平滑扩展能力。

实测数据表明,基于 MACA-3.3.0.X 构建的一体化算力底座在曦云 C 系列 GPU 上的训练推理效能,已展现出与国际旗舰 GPU 产品 A 正面竞争的实力。

沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%

上图展示了 DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型,在不同参数规模(如 7B、13B)及任务类型(SFT、Pretrain)下的训练 TGS 数据,包含「旗舰 A TGS」(黄色柱)、「C550 TGS」(紫色柱)及两者效率比值(绿色折线)。

MACA 不仅是技术平台,也是沐曦「1+6+X」战略的核心组成部分。其中,「1」代表数字算力底座;「6」代表对金融、医疗健康、能源、教科研、交通和大文娱六大核心行业的赋能;「X」则代表对具身智能、低空经济等新兴行业的覆盖。

技术报告详细介绍了 MACA 在多个垂直场景的优化成果:
* 在搜广推场景,MACA 针对 TensorFlow/JAX 与 XLA 技术栈进行了深度协同适配,在部分模型中性能已达到甚至超过国际旗舰产品。
* 在传统小模型支持方面,MACA 提供了多模型格式兼容和底层计算优化,覆盖计算机视觉、自然语言处理及传统机器学习等核心场景。
* 在 AI for Science 领域,MACA 适配了 PaddleScience、WRF 数值模式等科学计算工具。
* 在材料科学、天气模拟、药物研发等领域,MACA 也对领域主流 AI 框架进行了适配。

这种场景化优化能力,使沐曦 GPU 能够针对特定行业需求提供优化方案,实现从算力到生产力的高效转化。

作为衔接自主 GPGPU 硬件与全栈软件体系的核心载体,MACA 3.3.0.X 的推出不仅是产品迭代,更体现了国产芯片厂商通过软件定义算力、通过标准重塑生态的长远布局。

沐曦提供了从 AI 芯片到软件核心平台的全栈自研能力。与部分厂商选择兼容 CUDA 或基于现有开源 ISA 进行微调的方式不同,沐曦选择了基于自主指令集的路线,保证了长期安全性与演进自主权。MACA 软件栈拥有自己的编程模型,同时也深度兼容 CUDA 生态,使海量 CUDA 项目无需大幅修改即可适配。沐曦 GPU 基于全自研 GPGPU 核心 IP 及架构,原生支持全精度计算、MetaXLink 高速互连等特性。

凭借自研体系,沐曦保证了算力体系的安全合规、性能针对性及自主权。同时,MACA 并未因全自研而要求生态推倒重来,而是构建了高度兼容的软件栈体系。这种“高门槛自研、低成本迁移”的策略,在确保算力自主的前提下,最大程度地兼容了现有海量的算法模型、软件资产与开发者技能,让开发者能够以最低的迁移成本,在自主算力底座上高效运行业务。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16299

(0)
上一篇 2025年12月29日 下午12:27
下一篇 2025年12月29日 下午1:07

相关推荐

  • 阿里Qwen 3.5震撼开源:架构革新登顶全球最强,原生多模态重塑AI格局

    2026年2月16日,除夕佳节之际,阿里巴巴正式发布全新一代开源大模型千问Qwen 3.5。其Plus版本一经亮相便登顶全球最强开源模型,性能直接媲美闭源第一梯队的Gemini 3 Pro,并在多项权威基准测试中实现超越。 这场新春时节的“技术突袭”,不仅标志着阿里在大模型领域完成了从纯文本到原生多模态的代际跃迁,更以极致的效率与性价比,重构了全球开源大模型…

    2026年2月25日
    1.2K00
  • 遥感模型微调技术演进:从全参数到混合范式的全景解析

    近年来,在大数据与大模型的共同驱动下,遥感图像解译领域正经历着深刻的范式转变。传统上,研究重点多集中于模型结构本身的创新设计,然而随着计算资源的普及和预训练技术的成熟,业界逐渐转向「基础模型 + 微调」这一更具效率和应用潜力的新范式。这一转变的核心在于,通过利用在大规模通用数据上预训练的模型作为强大的特征提取器,再针对特定下游任务进行精细化调整,能够在显著降…

    2025年11月2日
    34100
  • AI颠覆COBOL帝国:IBM股价单日蒸发310亿美元,创26年最惨纪录

    IBM 成为人工智能领域的最新受害者。 周一,IBM 股价单日暴跌 13.2%,收于 223.35 美元,创下该公司自 2000 年 10 月以来最惨烈的单日跌幅,月内累计跌幅已达 25%。 这场风波的导火索,是 AI 初创公司 Anthropic 发布的一篇博客文章。该文章介绍了其 Claude Code 工具如何自动化处理 COBOL 代码的现代化迁移工…

    2026年2月25日
    36900
  • 从折纸到工程奇迹:14岁华裔少年如何用三浦折叠突破应急避难所设计

    在传统认知中,折纸往往被视为一种艺术或娱乐活动,但14岁的华裔少年迈尔斯·吴(Miles Wu)却通过这项古老技艺,在工程科学领域掀起了一场小型革命。今年10月,他凭借一项创新的折纸设计,在竞争激烈的赛默飞科学青少年创新挑战赛(JIC)中脱颖而出,斩获最高奖项及2.5万美元奖金。这一成就不仅为他赢得了“天才少年”的称号,更揭示了折纸在结构工程中的巨大潜力。 …

    2025年12月6日
    42900
  • OpenClaw狂潮下的AI自主执行时代:机遇、挑战与安全困境

    我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy OpenClaw 已彻底从开发者和科技爱好者的小圈子中破圈而出。 自其首个代表性项目 Clawdbot 诞生以来,OpenClaw 在 GitHub 上已狂揽 352k stars,其飞涨速度超…

    2026年4月8日
    24700