在AI产业高速发展的浪潮中,算力已成为驱动创新的核心燃料。然而,全球范围内普遍存在的算力资源利用率低下问题,正成为制约AI规模化应用的关键瓶颈。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态——这种供需错配造成了严重的资源浪费。2023年11月21日,华为正式发布并开源AI容器技术Flex:ai,联合上海交通大学、西安交通大学与厦门大学,推出了一套旨在彻底改变算力利用方式的解决方案。

Flex:ai的核心价值在于其构建的XPU池化与调度软件体系。该技术基于Kubernetes容器编排平台,通过对GPU、NPU等异构智能算力资源的精细化管理与智能调度,实现AI工作负载与算力资源的精准匹配。从技术架构来看,Flex:ai并非简单的资源管理工具,而是一个深度融合了虚拟化、调度算法和分布式计算技术的完整栈。华为将这一技术全面开源至“魔擎社区”,与此前开源的Nexent智能体框架、DataMate数据工程等工具共同构成了ModelEngine开源生态,标志着华为在构建自主AI技术生态方面迈出了关键一步。

技术创新的第一个突破点体现在算力资源切分能力上。针对AI小模型训推场景中“一张卡跑一个任务”造成的资源浪费,华为与上海交通大学联合研发的XPU池化框架实现了革命性的突破。该技术可将单张GPU或NPU算力卡切分为多份虚拟算力单元,切分粒度精准至10%。这意味着原本只能服务单一任务的算力卡,现在可以同时承载多个AI工作负载。更重要的是,通过弹性灵活的资源隔离技术,系统能够实现“用多少,切多少”的按需分配模式。在实际应用中,这一技术使小模型场景下的整体算力平均利用率提升30%,同时将虚拟化性能损耗控制在5%以内,在资源利用率和性能保障之间找到了最佳平衡点。


第二个技术突破来自跨节点算力资源聚合能力。传统AI计算架构中,大量通用服务器因缺乏智能计算单元而无法服务于AI工作负载,形成了巨大的算力资源浪费。华为与厦门大学联合研发的跨节点拉远虚拟化技术,通过将集群内各节点的空闲XPU算力聚合形成“共享算力池”,彻底改变了这一局面。该技术一方面为高算力需求的AI工作负载提供充足资源支撑;另一方面,使不具备智能计算能力的通用服务器能够通过高速网络,将AI工作负载转发到远端“资源池”中的GPU/NPU算力卡中执行。厦门大学设计的上下文分离技术更是打破了XPU的服务范围限制,使集群外部碎片减少74%,提升了67%高优作业吞吐量。这种设计不仅促进了通用算力与智能算力资源的融合,更在架构层面实现了计算资源的全局优化。

第三个核心创新是多级智能调度系统的构建。面对算力集群中多品牌、多规格异构算力资源难以统一调度的痛点,华为与西安交通大学共同打造的Hi Scheduler智能调度器提供了系统性解决方案。该调度器能够自动感知集群负载与资源状态,结合AI工作负载的优先级、算力需求、内存占用等多维参数,对本地及远端的虚拟化GPU、NPU资源进行全局最优调度。其智能算法能够实现AI工作负载的分时复用资源,即便在负载频繁波动的场景下,也能保障AI工作负载的平稳运行。这种动态调度能力让每一份算力都“物尽其用”,从系统层面提升了整体资源利用效率。

从产业竞争格局来看,Flex:ai的发布具有重要的战略意义。去年7月,英伟达以7亿美元收购以色列AI初创公司Run:ai,引发了业界对算力资源管理技术的高度关注。Run:ai的技术核心在于通过动态调度、GPU池化和分片等技术优化AI计算资源的使用效率,据报道其平台能够将GPU资源利用率从不足25%提升至80%以上。Flex:ai的开源被视为对这一技术路线的正面回应,但更重要的是,它在异构兼容性方面展现了独特优势。上海交通大学戚正伟教授指出:“Flex:ai的异构兼容性更优于Run:ai,其开放架构将推动国产算力生态标准化。”这种兼容性不仅体现在支持英伟达GPU和华为昇腾NPU的“融为一体”,更在于其架构设计能够适应未来可能出现的各种新型计算硬件。

从技术发展趋势分析,Flex:ai代表了AI基础设施演进的三个重要方向:首先是算力资源的软件定义化,通过虚拟化技术将物理算力转化为可灵活调配的逻辑资源;其次是异构计算的统一管理,打破不同硬件架构之间的壁垒;最后是开源生态的构建,通过开放协作加速技术创新和标准化进程。华为通过Flex:ai的开源,不仅提供了一套技术解决方案,更在推动整个行业向更高效、更开放的算力利用模式转型。
展望未来,随着大模型参数量持续增长和AI应用场景不断拓展,算力资源的高效利用将成为决定AI发展速度的关键因素。Flex:ai所倡导的“从万卡集群到一卡多用”理念,可能会重新定义AI时代算力的使用方式。其开源开放策略将进一步降低技术门槛,促进国产算力的大规模应用,在全球AI基础设施竞争中为中国技术体系赢得重要的话语权。这场由华为引领的算力效率革命,不仅关乎技术优化,更关系到整个AI产业的可持续发展能力。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6421
