异构计算_鲸林向海

Android异构硬件AI推理优化：NPU+INT8量化实现298倍加速的深度解析

关键词： Android、异构计算、模型量化、ResNet、YOLO、高通骁龙当你使用手机的“拍照识物”功能时，是否遇到过画面卡顿？当直播应用的实时美颜效果延迟明显时，你是否好奇问题出在哪里？这些场景背后，都指向移动 AI 推理的核心挑战：如何在手机有限的硬件资源下，让AI模型（如图像分类、目标检测）既跑得快（低延迟），又算得准（高精度），同时还不费电（低…

2026年1月3日

125000

AI产业动态

沐曦MXMACA 3.3.0.X发布：国产GPU生态兼容突破，CUDA项目迁移成功率超92%

近日，国产GPU公司沐曦股份在完成IPO后，发布了其上市以来的首个重大技术更新——MXMACA软件栈（MACA）的全新版本3.3.0.X。该版本标志着沐曦在软件生态建设上实现了一次重要跨越，其核心目标是解决国产GPU“用起来”的关键问题。在全自主硬件体系的支持下，沐曦构建了完整的“全栈软件”体系，旨在最大化释放硬件算力。MACA（MetaX Acceler…

2025年12月29日

151000

大模型推理

揭秘浮点累加顺序黑盒：FPRev工具如何解决异构计算中的数值可复现性难题

关键词：FPRev、浮点累加顺序、数值可复现性、异构计算、浮点运算、累加顺序推断 Revealing Floating-Point Accumulation Orders in Software/Hardware Implementations https://www.usenix.org/conference/atc25/presentation/xie …

2025年12月21日

77000

大模型推理

Nexa SDK：实现手机、PC、边缘设备算力大一统的端侧AI终极形态

关键词：端侧 AI、Nexa SDK、异构计算、NexaQuant、模型压缩、跨平台部署 NexaAI: Ship any AI model to Any Device in Minutes. Production-ready on-device inference across backends. 代码： https://github.com/Nexa…

2025年12月21日

114000

大模型训练

SuperOffload：超级芯片时代LLM训练的革命性卸载系统，吞吐量提升2.5倍，解锁百万token序列训练

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它可同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

96000

大模型训练

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU

关键词：SuperOffload、大语言模型训练、超级芯片、卸载技术、异构计算本研究探索超级芯片时代 LLM 训练软件优化方案，发现基于 PCIe 带宽限制设计的传统卸载方案，难以充分利用超级芯片硬件资源。为此，我们设计了首个适配超级芯片的 SuperOffload 系统，它能同时高效调用 Hopper GPU、Grace CPU 与 NVLink-C2…

2025年12月21日

113000

AI产业动态

华为Flex:ai开源：异构算力池化技术如何重塑AI资源利用效率

在AI产业高速发展的浪潮中，算力已成为驱动创新的核心燃料。然而，全球范围内普遍存在的算力资源利用率低下问题，正成为制约AI规模化应用的关键瓶颈。小模型任务独占整卡导致资源闲置，大模型任务单机算力不足难以支撑，大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态——这种供需错配造成了严重的资源浪费。2023年11月21日，华为正式发布并开源AI容器技术Fle…

2025年11月22日

72000

AI产业动态

从数据中心到工作站：KTransformers与LLaMA-Factory联手重塑千亿参数模型微调格局

在人工智能技术快速迭代的浪潮中，大模型微调一直被视为连接通用智能与垂直应用的关键桥梁。然而，传统微调方法对计算资源的巨额需求，将千亿乃至万亿参数模型的定制化能力牢牢锁在数据中心内部，普通研究者和中小企业只能望而却步。如今，这一局面正被彻底改写——仅需2-4张消费级RTX 4090显卡，即可在本地工作站上对DeepSeek 671B、Kimi K2 1TB等超…

2025年11月5日

95000