张量并行 - 鲸林向海

ArcLight：突破众核CPU推理瓶颈，NUMA感知架构让LLM推理性能飙升46%

当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而，主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。这类平台普遍采用非统一内存访问（NUMA）架构，其跨节点的内存访问延迟远高于本地访问，形成了严重的“跨 NUMA 内存访问墙”，成为制约 LLM 推理性能的核心瓶颈。现…

2026年4月16日

197000

AI产业动态

上交、清华提出面向 LLM 推理的多核 NPU 创新策略：全栈多维度优化实现1.32x-6.03x超 SOTA 加速

关键词：多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合随着 ChatGPT、Qwen、DeepSeek 等大型语言模型（LLM）的广泛应用，AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶，LLM 正在成为数字时代的“新电力”。然而，这场变革的背后隐藏着一个严峻的挑战：如何高效地运行这些庞然大物？传统的…

2026年1月18日

430000