异构计算
-
Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析
关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…
-
沐曦MXMACA 3.3.0.X发布:国产GPU生态兼容突破,CUDA项目迁移成功率超92%
近日,国产GPU公司沐曦股份在完成IPO后,发布了其上市以来的首个重大技术更新——MXMACA软件栈(MACA)的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越,其核心目标是解决国产GPU“用起来”的关键问题。 在全自主硬件体系的支持下,沐曦构建了完整的“全栈软件”体系,旨在最大化释放硬件算力。MACA(MetaX Acceler…
-
揭秘浮点累加顺序黑盒:FPRev工具如何解决异构计算中的数值可复现性难题
关键词:FPRev、浮点累加顺序、数值可复现性、异构计算、浮点运算、累加顺序推断 Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations https://www.usenix.org/conference/atc25/presentation/xie …
-
Nexa SDK:实现手机、PC、边缘设备算力大一统的端侧AI终极形态
关键词:端侧 AI、Nexa SDK、异构计算 、NexaQuant、模型压缩 、跨平台部署 NexaAI: Ship any AI model to Any Device in Minutes. Production-ready on-device inference across backends. 代码: https://github.com/Nexa…
-
SuperOffload:超级芯片时代LLM训练的革命性卸载系统,吞吐量提升2.5倍,解锁百万token序列训练
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…
-
SuperOffload:解锁超级芯片潜能,4芯片训练50B模型,吞吐量提升2.5倍,实现55% MFU
关键词:SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算 本研究探索超级芯片时代 LLM 训练软件优化方案,发现基于 PCIe 带宽限制设计的传统卸载方案,难以充分利用超级芯片硬件资源。 为此,我们设计了首个适配超级芯片的 SuperOffload 系统,它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…
-
华为Flex:ai开源:异构算力池化技术如何重塑AI资源利用效率
在AI产业高速发展的浪潮中,算力已成为驱动创新的核心燃料。然而,全球范围内普遍存在的算力资源利用率低下问题,正成为制约AI规模化应用的关键瓶颈。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态——这种供需错配造成了严重的资源浪费。2023年11月21日,华为正式发布并开源AI容器技术Fle…
-
从数据中心到工作站:KTransformers与LLaMA-Factory联手重塑千亿参数模型微调格局
在人工智能技术快速迭代的浪潮中,大模型微调一直被视为连接通用智能与垂直应用的关键桥梁。然而,传统微调方法对计算资源的巨额需求,将千亿乃至万亿参数模型的定制化能力牢牢锁在数据中心内部,普通研究者和中小企业只能望而却步。如今,这一局面正被彻底改写——仅需2-4张消费级RTX 4090显卡,即可在本地工作站上对DeepSeek 671B、Kimi K2 1TB等超…