张量并行
-
ArcLight:突破众核CPU推理瓶颈,NUMA感知架构让LLM推理性能飙升46%
当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而,主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。 这类平台普遍采用非统一内存访问(NUMA)架构,其跨节点的内存访问延迟远高于本地访问,形成了严重的“跨 NUMA 内存访问墙”,成为制约 LLM 推理性能的核心瓶颈。 现…
-
上交、清华提出面向 LLM 推理的多核 NPU 创新策略:全栈多维度优化实现1.32x-6.03x超 SOTA 加速
关键词:多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合 随着 ChatGPT、Qwen、DeepSeek 等大型语言模型(LLM)的广泛应用,AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶,LLM 正在成为数字时代的“新电力”。然而,这场变革的背后隐藏着一个严峻的挑战:如何高效地运行这些庞然大物? 传统的…
