张量并行
-
上交、清华提出面向 LLM 推理的多核 NPU 创新策略:全栈多维度优化实现1.32x-6.03x超 SOTA 加速
关键词:多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合 随着 ChatGPT、Qwen、DeepSeek 等大型语言模型(LLM)的广泛应用,AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶,LLM 正在成为数字时代的“新电力”。然而,这场变革的背后隐藏着一个严峻的挑战:如何高效地运行这些庞然大物? 传统的…