上交、清华提出面向 LLM 推理的多核 NPU 创新策略：全栈多维度优化实现1.32x-6.03x超 SOTA 加速

关键词：多核NPU、LLM推理、NpuSim模拟器、张量并行、内存管理、PD分拆与融合

随着 ChatGPT、Qwen、DeepSeek 等大型语言模型（LLM）的广泛应用，AI 应用正在经历一场前所未有的变革。从智能助手、代码生成到自动驾驶，LLM 正在成为数字时代的“新电力”。然而，这场变革的背后隐藏着一个严峻的挑战：如何高效地运行这些庞然大物？

传统的 GPU 架构虽然在训练阶段表现出色，但在推理阶段面临着内存墙、能效比低等问题。为此，科技巨头们纷纷推出了专用 AI 加速器：Google 的 TPU、华为的 NPU、Graphcore 的 IPU、Cerebras 的 WSE 等。

这些加速器大多采用多核架构设计，通过集成数十至数千个计算核心，提供卓越的可扩展性和能效。然而，多核 NPU 在实际部署 LLM 推理时仍面临两大困境：硬件配置的异构性和架构设计的特殊性。

From Principles to Practice: A Systematic Study of LLM Serving on Multi-core NPUs
https://arxiv.org/pdf/2510.05632
1.4 万字，阅读 50 分钟，播客 19 分钟

不同厂商的 NPU 在互连带宽、片上内存大小、外部 HBM/DRAM 配置等方面差异显著，导致针对一种硬件优化的方案难以直接迁移。更关键的是，多核 NPU 采用的数据流计算模式和离散内存架构，使得 GPU 上成熟的模型并行、预填充-解码（PD）分离/融合等策略失效。

针对这些挑战，上海交通大学和清华大学的研究团队发表了一篇题为《Optimizing Large Language Model Serving on Multi-core NPUs: A Simulation-based Approach》的研究论文，提出了多粒度仿真框架 NpuSim。该框架通过事务级模拟内存与互联操作、性能模型模拟计算操作，在保证精度的同时平衡了效率，并支持流式请求输入以复现真实的 LLM 服务场景。

表 1 | 不同 LLM 推理方法对比。该表对比了四种 LLM 推理方法（T10、WaferLLM、WSC-LLM 及本文方法）在关键技术维度的差异：张量划分策略上，T10 仅用 AllGather，WaferLLM 增加 AllReduce，WSC-LLM 以 AllReduce 为主，本文方法支持三种策略；核心布局方面，本文覆盖线性交错、环形、2D 网格等更多拓扑；内存管理上，本文同时支持 SRAM 与 HBM；还实现了最优 PD 分离 / 融合及请求调度，适配多核心 NPU 平台。此表凸显本文方法的全面性：前三种方法受限于特定硬件（如 T10 针对 IPU），仅优化部分维度，而本文针对多核 NPU 异构性与 LLM 推理需求，整合多策略，突破硬件适配局限，为后续实现 1.32x-6.03x 性能提升奠定基础。

基于 NpuSim，本文系统分析了多核 NPU 上 LLM 服务的优化策略：
* 在张量划分与核心布局方面，对比了 AllGather、AllReduce 等策略，发现需结合序列长度进行选择；
* 针对离散内存架构，提出了多粒度内存管理方案，降低了对大容量片上 SRAM 的依赖；
* 深入研究了预填充-解码分离（PD Disaggregation）与融合（PD Fusion），设计了异构核心与优化调度方案。

图 2 | NpuSim 整体设计。NpuSim 通过“混合精度模拟”平衡效率与准确性：计算单元采用性能模型模拟（如 Matmul 算子按 systolic 阵列 tile 划分计算延迟），内存与路由模块采用 cycle 级模拟，既避免了全 cycle 模拟的高耗时，又解决了纯性能模型对非确定性延迟（如 NoC 拥塞、异步 HBM 访问）估计不准的问题。此外，其支持流式请求输入，可复现真实 LLM 服务中动态请求分布（如不同长度的提示与解码步数），为后续优化策略验证提供可靠工具。

在 1.7B 至 32B 参数的 LLM 模型上的实验表明，该方案较现有 SOTA 设计实现了 1.32x 至 6.03x 的性能提升。研究还给出了硬件与系统设计的指导：
* 短序列或分块预填充场景宜用 AllReduce，长序列宜用 AllGather；
* 片上 SRAM 需容纳完整模型权重才能显著提升性能；
* 预填充占优场景宜选择异构 PD 分离，解码占优场景宜选择 PD 融合。

本文目录

一、关键问题
- 问题一：仿真准确性的边界何在？
- 问题二：优化策略的普适性如何保证？
二、相关工作：NPU 模拟与优化现状
- 2.1 多核 NPU 架构演进
- 2.2 NPU 模拟器发展现状
- 2.3 多核 NPU 上的 LLM 服务加速
三、核心创新：NpuSim——多级模拟框架
- 3.1 设计理念：平衡精度与效率
- 3.2 定制化调度器：应对动态 LLM 服务
四、优化策略：三个维度的突破
- 4.1 张量划分与核布局
- 4.2 层次内存管理
- 4.3 PD 分离与 PD 融合
五、实验评估：全面验证优化效果
- 5.1 实验设置
- 5.2 模拟器验证
- 5.3 硬件配置空间探索
- 5.4 TP 和核布局
- 5.5 LLM 服务性能
- 5.6 NPU 硬件架构与 LLM 系统设计指导
六、结论与展望

一、关键问题

问题一：仿真准确性的边界何在？

NpuSim 采用多级仿真平衡精度与效率，但在极端硬件配置或复杂工作负载下（如超长序列、高并发请求），其事务级模型是否仍能保持高保真度？ 是否已验证其在动态负载下的长期稳定性？

NpuSim 的仿真准确性在论文验证的常规场景（如 Qwen3_4B 模型、中等批次与序列长度）下表现良好，其混合仿真方法在 Ascend NPU 硬件上取得了与实测接近的延迟结果（如图 7 左）。然而，其准确性边界主要存在于两类场景：

二、相关工作：NPU 模拟与优化现状

2.1 多核 NPU 架构演进

近年来，专用 AI 加速器层出不穷。Graphcore IPU、AWS NeuroCore、Tenstorrent、Tesla DOJO、Sambanova、Cerebras WSE、Groq 等设计各具特色，但它们共享一个核心设计特征：多核架构。

图 1 | 多核 NPU 硬件架构。图中展示了典型多核 NPU 的关键模块：NPU 核心、片上网络（NoC）、高带宽内存（HBM）及输入/输出接口。每个 NPU 核心集成了处理单元阵列（PE Array）、向量单元（Vector Unit）、本地静态随机存取存储器（SRAM）、直接内存访问引擎（DMA）及 NoC 路由器。多个核心通过 NoC 互联，并接入多通道 HBM，形成具备高扩展性的计算与存储架构。

典型多核 NPU 通常包含以下关键组件：
* NPU 核心：集成脉动阵列或矩阵立方体、向量/标量单元。
* 互连网络：通常采用 2D-mesh 拓扑，支持核心间、芯片间通信。
* 内存子系统：片上 SRAM/暂存器内存、外部 HBM/DRAM。
* I/O 接口：数据传输通道。

早期设计如 IPU 和 Groq 主要依赖大容量片上 SRAM 作为唯一内存资源，这限制了单芯片所能支持的模型规模。Cerebras WSE 将片上 SRAM 扩展到晶圆级别，但其计算潜力与内存容量仍不匹配。最新进展开始为多核 NPU 引入外部内存子系统，通过内存堆叠实现核心本地 HBM，为 LLM 推理提供了更具可扩展性的内存方案。

2.2 NPU 模拟器发展现状

NPU 模拟器主要分为两类：周期精确模拟和基于性能模型的模拟。
* 周期精确模拟通过模拟每个时钟周期来评估目标架构，虽能利用低级硬件细节获得准确性能，但模拟时间过长，对计算密集型工作负载（如 LLM）不实用。一些研究使用 FPGA 加速模拟，但仍受限于硬件资源和工程复杂度，难以支持大规模架构探索。
* 基于性能模型的模拟采用数学分析来表征延迟，通过代数外推推导周期数。这类模拟器通常用于设计空间探索和神经网络映射，但对 LLM 推理服务的独特特性关注不足。更重要的是，它们无法准确捕获具有非确定性延迟的硬件模块行为，如核心间 NoC 拥塞、异步 HBM 访问和缓存系统的不可预测性。

2.3 多核 NPU 上的 LLM 服务加速

先前研究主要集中在优化 GEMM（通用矩阵乘）和 GEMV（通用矩阵-向量乘）计算。

T10 为 IPU 芯片提出了矩阵计算优化，引入“旋转张量”概念，将输入和权重张量分布到不同计算核心。
WaferLLM 在 T10 基础上扩展了 Cerebras WSE 平台的优化技术，针对 2D-mesh 拓扑引入了交错排列，确保每个环 AllGather 所需的最大跳数不超过 2。

然而，这些工作缺乏对多核架构上 GEMM 计算的全面分析，主要关注基于 AllGather 的 GEMM，未分析 AllReduce 或 AllReduce 与 AllGather 组合策略的性能。

WSC-LLM 进一步研究了 HBM 和互连带宽对多核 NPU 架构中 LLM 推理的影响，提出了 PD 分离的核布局策略，但主要针对晶圆级多核 NPU，未考虑片上 SRAM 或 NoC 互连的影响。

三、核心创新：NpuSim——多级模拟框架

3.1 设计理念：平衡精度与效率

为了系统研究多核 NPU 在 LLM 服务场景中的优化策略，研究团队开发了 NpuSim —— 一个面向数据流多核架构的高效模拟平台。

NpuSim 解决了两大关键挑战：
1. 高效准确地模拟计算密集型和内存密集型的 LLM 推理任务。
2. 有效处理现代 LLM 服务场景中普遍存在的流式请求。

图 2 | NpuSim 整体设计。包含计算系统、内存系统、路由系统三大子系统，以及调度器、跟踪引擎、资源分析器等辅助模块。计算系统提供算子的底层原语模拟与工作核心抽象；内存系统采用系统级事务建模（TLM）模拟 SRAM、HBM 访问；路由系统通过握手机制实现 cycle 级精确模拟；调度器支持连续批处理、预填充 – 解码分离（PD Disaggregation）、预填充 – 解码融合（PD Fusion）等策略，可灵活配置请求数量、提示长度等参数。NpuSim 通过 “混合精度模拟” 平衡效率与准确性：计算单元采用性能模型模拟（如 Matmul 算子按 systolic 阵列 tile 划分计算延迟），内存与路由模块采用 cycle 级模拟，既避免了全 cycle 模拟的高耗时，又解决了纯性能模型对非确定性延迟（如 NoC 拥塞、异步 HBM 访问）估计不准的问题。此外，其支持流式请求输入，可复现真实 LLM 服务中动态请求分布（如不同长度的提示与解码步数），为后续优化策略验证提供可靠工具。

图 2 展示了 NpuSim 的整体设计。系统分为三个组件：计算系统、内存系统和片上路由系统。通过仔细分析这三个组件，研究团队为每个部分采用了特定的模拟级别。

计算系统 采用形状感知性能模型。以 Matmul 算子为例，当使用 N×N 脉动阵列时，首先将权重和输入激活划分为图块，必要时填充最后一个图块。总计算延迟计算公式为：

$$
T_{comp} = T_{tile} times N_{tile} + T_{inj}
$$

其中 $N_{tile}$ 表示权重图块数，$T_{tile}$ 是每个图块的脉动周期数，$T_{inj}$ 是权重注入延迟。
内存系统 采用事务级建模（TLM）方法，将每个内存请求分解为四个阶段：Begin_Req、End_Req、Begin_Resp 和 End_Resp，支持异步事件驱动模拟。这种方法在保持高模拟效率的同时实现了周期精确的模拟精度。
路由系统 采用带握手机制的周期精确模拟来建模路由器行为。一旦建立路由路径（通过握手信号成功交换指示），确保每个时钟周期可以传输一个数据包。这样可以基于已建立链路上的数据传输数量准确计算数据包延迟。

3.2 定制化调度器：应对动态 LLM 服务

先前工作主要关注 CNN 或静态 LLM 模拟，其中固定批次的请求执行一次以获得模拟运行时间。然而，这种模拟方法与实际 LLM 部署场景有显著差异。

典型的 LLM 场景中，端到端性能评估需要执行一次预填充阶段，然后是多轮解码阶段。LLM 模拟必须处理动态图和调度，其中预填充期间的序列长度、解码步骤数和到达时间在不同请求间可能变化。

研究团队实现了一个迭代级调度器和监控器，允许灵活配置，如每轮迭代的请求数、提示长度、分块预填充和预填充-解码阶段。这种设计支持定制调度策略如 PD 融合、PD 分离、连续批处理等。

四、优化策略：三个维度的突破

4.1 张量划分与核布局

由于多核 NPU 芯片采用数据流计算范式，其性能对张量划分和核布局策略高度敏感。

GEMM 张量划分策略

先前研究主要探讨如何在多核 NPU 上高效部署 GEMM 算子，但这些研究仅针对特定硬件平台提出了 AllGather 策略。在实际服务场景中，涉及不同模型大小和序列长度，一刀切的方法证明是不充分的。

图 3 | GEMM算子的三种不同张量划分策略。（a）1D 划分（M/N 维度）：沿输入 / 权重张量的 M（行）、N（列）维度划分，依赖 AllGather 原语收集完整权重以完成计算，核心 1 与核心 2 通过 AllGather 交换部分张量后执行 GEMM；（b）1D 划分（K 维度）：沿张量的 K（中间维度）划分，基于 AllReduce 原语聚合部分结果，核心 1 与核心 2 分别计算后通过 AllReduce 合并结果；（c）2D 划分（M/N+K 维度）：同时沿 M/N 与 K 维度划分，核心按 2D 网格拓扑排列，先通过 AllReduce 聚合同列核心的部分结果，再通过 AllGather 交换同行核心的张量，迭代完成计算。

图 3 展示了 GEMM 算子三种不同的张量划分策略，适配 LLM 推理的不同场景：
* M/N 维度划分在长序列（如序列长度超模型隐藏层维度）场景更优，因 AllGather 可减少通信量。
* K 维度划分适合短序列或分块预填充场景，AllReduce 能降低中间结果传输开销。
* 2D 划分结合两者优势，在中等序列长度下平均实现 1.44 倍性能提升。

表 2 | 不同张量划分策略的通信和内存成本。该表量化三种张量划分策略的资源消耗：输入 / 权重 / 输出张量列表示各 NPU 核心的内存占用；总通信量为单核心在 GEMM 计算中传输的总数据量；最大跳数为核心间数据传输的最大路径长度（α 通常为 2）。其中，1D（M/N）划分依赖 AllGather，总通信量为 (num-1)×K×N；1D（K）划分用 AllReduce，总通信量为 2×(num-1)/num×M×N；2D 划分结合两种原语，通信量计算更复杂，三者最大跳数均在 1~α 范围。

当序列长度小于隐藏大小时（如在分块预填充期间），AllReduce 原语表现出更好的性能。

核布局策略

核布局策略 同样至关重要。研究团队首先将所有 NPU 核心划分为多个流水线，每个流水线负责处理模型的一个或多个层。

在每个流水线内，采用不同布局策略（1-D 或 2-D，环或序列）进行张量划分。

图 4：不同核心布局策略 | 考虑流水线间（inter-pipe）与流水线内（intra-pipe）通信成本的核心布局策略示意图。包含 6 种流水线布局：Pipe-1/2 采用交错线性拓扑（WaferLLM 提出），逻辑相邻节点物理距离近，限制单传输最多 2 跳；Pipe-3/4 采用环形拓扑，天然适配环形 AllGather/AllReduce 通信，但可能降低流水线间带宽；Pipe-5/6 采用 2D 网格拓扑，流水线内互联更丰富，但流水线间带宽较低，且各维度按交错线性排列以最小化通信开销。

图 4 展示了不同的核布局策略。

4.1 核心布局与拓扑

1-D 布局：包含环拓扑（如图中Pipe-3/4）和交错线性拓扑（WaferLLM引入，如图中Pipe-1/2）。环拓扑天然适配基于环的AllGather和AllReduce操作，但可能限制流水线间的通信带宽。交错线性拓扑能提供更高的流水线间通信带宽，但其虚拟环上逻辑相邻的节点可能在物理上相距较远，导致单次通信需要两跳完成。
2-D 布局：核心以2-D mesh拓扑组织（如图中Pipe-5/6）。这种布局为流水线内通信提供了更丰富的互连，但会降低流水线间的带宽。在每个维度内，核心按交错线性拓扑排列，以最小化通信开销。

理论上，2-D mesh布局能提供最佳性能。然而，由于流水线间带宽的限制，以及计算与通信重叠的考量，它可能并非适用于所有服务负载。

4.2 层次内存管理

现代多核NPU常采用非统一内存架构以提升核心可扩展性，但这为LLM服务带来了新的挑战，例如如何跨请求高效管理KV缓存、权重和激活。

先前的工作（如WaferLLM）通过将KV缓存卸载到其他计算核心来解决单个核心内存容量有限的问题，但这主要针对缺乏高带宽内存（HBM）支持的多核NPU（如Cerebras WSE）。当前的多核NPU架构倾向于将HBM集成在计算核心附近，以支持更大的模型参数和更长的上下文长度。

针对这种内存层次结构，研究团队提出了一种混合粒度内存管理系统，旨在高效协调不同层级的内存对象。

图 5 | 多核NPU的多粒度KV缓存管理示意图。SRAM采用块级细粒度管理：为每个请求的KV缓存维护块ID链表（例如请求1占用ID1-4），空闲块也维护独立链表，请求完成后回收块ID。HBM采用缓冲区级粗粒度管理：为每个请求分配一个具有最大令牌长度的环形缓冲区。此外，SRAM中静态分配部分空间用于存储部分权重、输入/输出及临时计算缓冲区，动态分配空间用于KV缓存块，实现内存资源的高效复用。

KV缓存管理

LLM服务期间的内存需求可分为四类：KV缓存、模型权重、输入和激活、临时缓冲区。随着HBM的集成，无需在其他NPU核心的SRAM中保留KV缓存，因为片上SRAM容量远小于HBM，且核心间带宽并不显著超过HBM带宽。

因此，研究团队以不同粒度将KV缓存储存在SRAM和HBM中。鉴于SRAM容量有限，对SRAM中的KV缓存采用细粒度块级管理，完整的KV缓存可能由多个非连续块组成；而对容量充裕的HBM，则采用粗粒度管理方案。

随着KV缓存增长，无法将其全部存入SRAM。研究团队将溢出的KV缓存从SRAM迁移至HBM。考虑到HBM容量大且对顺序读写性能更优，对HBM中的KV缓存采用粗粒度策略：为每个请求分配一个完整的KV缓冲区（具有最大令牌长度），并将HBM组织为环形缓冲区结构。

权重和激活管理

除了KV缓存，SRAM还需存储模型权重、激活/输入以及计算通信的临时缓冲区。在预填充阶段和FFN阶段，NPU核心主要执行GEMM操作，计算是主要瓶颈。因此，在SRAM中为矩阵计算的中间结果保留适量缓冲区即可，将更多SRAM容量分配给计算单元对整体性能影响甚微。

4.3 PD分离与PD融合

PD（预填充-解码）分离或融合设计常用于提升GPU资源利用率。对于多核NPU，预填充和解码阶段同样存在资源利用不平衡问题，因此采用这些策略也有效，但引入了新的挑战。

4.3.1 多核NPU上的PD分离

PD分离的核布局

PD分离便于在多核架构上灵活分配核心，一部分专用于预填充，其余专用于解码。先前研究采用了数据并行优先的核布局策略。

图 6 | 两种预填充-解码分离（PD Disaggregation）的核心布局策略示意图。（a）数据并行优先：先按数据并行度（如DP=4）将所有核心分组，每组内按比例分配预填充核心与解码核心，核心间通过KV缓存通道传输数据；（b）流水线并行优先：按流水线并行度划分核心，每个核心在2D网格拓扑中仅使用一条互联通道，剩余通道用于预填充核心向解码核心传输KV缓存；同时将预填充核心置于两侧、解码核心置于中心，以最小化KV缓存传输延迟。

如图6-(a)所示，所有核心首先按预定义的数据并行度分组，每组内再按比例分配任务。

然而，更有效的策略是在核布局中优先考虑流水线并行性。在流水线并行执行中，每个核心仅使用2D mesh拓扑内的单个互连通道，剩余通道可用于从预填充核心到解码核心的KV缓存传输。图6-(b)展示了这种流水线并行优先的布局策略，它能最大化预填充与解码核心间的通信带宽，且不影响流水线并行本身的数据流。 此外，将预填充核心置于两侧、解码核心置于中心，有助于最小化KV缓存传输延迟。

PD分离的并行策略

PD分离还需仔细考虑预填充和解码阶段的并行策略（如TP和PP大小）。
* 在预填充阶段，请求可流式进入预填充核心，无需等待前序任务完成，这有利于高效的流水线并行。
* 而在解码阶段，自回归计算使得后续令牌的生成依赖于前序令牌计算的完成。

流水线并行会导致解码延迟和每个核心需保留的KV缓存量增加N倍（N为流水线级数）。张量并行能改善解码延迟，但可能因通信开销增加而降低吞吐量。因此，PD分离的并行化策略选择应由具体的服务等级目标决定。

PD分离的异构核心设计

考虑到预填充和解码阶段的计算特性不同，为每个阶段部署异构核心是有益的。例如，解码核心可配置更多的内存资源（如扩展的SRAM容量、HBM模块和内存接口），同时缩减计算资源（如脉动阵列和向量通道的宽度）。这种调整对解码阶段通常较小的批处理规模下的GEMM计算影响最小，却能显著增强内存处理能力，使解码核心能同时处理更多请求。

4.3.2 多核NPU上的PD融合

与PD分离需固定核心比例不同，PD融合允许单个核心同时处理预填充和解码请求。为此，研究团队提出了一个专用调度器，将两类工作负载共置，并确保满足TBT（令牌间时间）和TTFT（首次令牌时间）要求。

为防止预填充操作过度干扰解码过程，采用分块预填充策略，将预填充请求划分为固定大小的块。每个核心设有预算：解码任务占用1个单位预算，预填充任务占用N个单位。
* 当解码任务数量超过预算时，调度器优先处理解码请求，以最小化预填充引起的停顿。
* 当解码负载低于预算阈值时，调度器则为分块预填充分配预算。

在PD融合场景中，预填充和解码阶段必须采用相同的并行策略。 然而，多核NPU上两个阶段的最优并行方法并不相同：预填充阶段更偏好流水线并行，而解码阶段则更受益于张量并行。 考虑到PD融合本身可能增加TBT，研究团队更倾向于在PD融合中为两个阶段均采用张量并行。

五、实验评估：全面验证优化效果

5.1 实验设置

芯片配置：研究团队考虑了多核NPU的多种硬件配置，如表3所示。这些配置涵盖了核心数量、计算能力、片上SRAM大小与带宽、高带宽内存（HBM）容量与带宽等关键参数。

表3 | 评估的芯片配置空间。两种配置覆盖了多核NPU的常见设计，可用于模拟不同硬件规模下的LLM推理性能。实验表明，大计算核心更适配大参数量模型（如32B），而小核心在小模型（如4B）上能效更优，为硬件选型与架构优化提供了多场景参考。

模型选择：为确保评估的全面性，实验使用了参数规模从1.7B到32B的Qwen3模型，以及一个30B-A3B的混合专家（MoE）模型。

工作负载：在LLM服务场景中，研究参考了工业界实践（如Mooncake和ShareGPT），并据此采用了两种典型的工作负载：预填充主导和编解码主导。

5.2 模拟器验证

图7 | NpuSim与昇腾910B延迟对比及模拟模式精度-性能权衡。左图：Qwen3_4B模型在NpuSim与昇腾NPU-910B硬件上的端到端延迟对比，验证了NpuSim的准确性。在相同硬件配置下，NpuSim模拟延迟与昇腾910B实测延迟趋势一致，误差控制在10%以内，即使受硬件资源利用率、软件优化等因素影响，仍能可靠反映性能变化（如批处理增大时延迟的下降幅度）。右图：NpuSim不同模拟模式的精度-性能权衡，横轴为不同工作负载（C1-C6，前3个为内存密集型，后3个为计算密集型），纵轴左为相对误差（%）、右为加速比，对比性能模型模拟与事务级建模（TLM）模拟的差异，体现其灵活性。在内存密集型场景中，性能模型模拟较TLM快4.93-11.27倍，但误差可达38.56%；在计算密集型场景中，由于计算延迟确定性高，误差可控制在3%以内。因此，论文后续实验对内存系统采用TLM模拟，以确保LLM服务中“内存-计算混合负载”的模拟精度。

图7（左） 比较了Qwen3_4B模型在NpuSim模拟器和昇腾NPU-910B硬件上的端到端延迟。实验使用了不同的解码序列长度（128和256）和批次大小（8到64）。在相同硬件配置下，NpuSim的模拟运行时间与实际硬件的执行时间高度吻合。尽管实际执行会受到硬件资源利用率和软件优化等因素的影响，但NpuSim的模拟结果保持了与实际性能一致的趋势。
图7（右） 展示了NpuSim两种模拟模式在运行效率和准确性之间的权衡。对于内存和互连操作，NpuSim支持周期精确的TLM模拟和基于性能模型的快速模拟。研究团队测试了Qwen3_4B在不同工作负载下的表现，其中C1到C3代表内存密集型场景，其余代表计算密集型场景。

实验结果如下：
* 在内存密集型场景中，性能模型模拟可将模拟执行时间降低4.93至11.27倍，但会引入高达38.56%的误差。
* 在计算密集型场景中，由于计算延迟的确定性，模拟误差可以保持在3%以内。

鉴于LLM服务同时涉及内存密集型和计算密集型操作，研究团队在后续评估中为内存系统采用了周期精确的TLM模拟，以保障模拟精度。

5.3 硬件配置空间探索

图8 | 不同硬件配置下Qwen3模型的单请求延迟。X轴表示不同的SRAM-计算配置（例如，“S32A128”表示32MB SRAM和128×128脉动阵列）。实验结果揭示了硬件配置与LLM推理性能的关联规律：对于小模型（如4B参数），当SRAM容量较大（≥64MB）时，HBM带宽对延迟影响可忽略不计（因为SRAM能容纳大部分权重与KV缓存，极少溢出）；对于大模型（如32B参数），因权重与KV缓存频繁溢出，需要同时提升脉动阵列尺寸（增强计算能力）与HBM带宽（缓解内存瓶颈），两者协同可将延迟降低1.4倍；当SRAM容量远小于模型权重（如32B模型配16MB SRAM）时，增大SRAM对延迟改善有限，此时SRAM仅作为临时计算缓冲区，性能更依赖于HBM带宽与计算单元效率。

图8展示了在不同硬件配置下Qwen3模型的单请求延迟，主要考察了单核SRAM大小、脉动阵列维度和HBM带宽的影响。实验中，NPU核心数量固定为64，张量并行（TP）大小固定为4，预填充与解码的token比例固定为5:1。

对于拥有大容量SRAM的小模型（如4B），由于SRAM压力低且向HBM溢出的数据极少，HBM带宽的变化对延迟影响微乎其微。
相反，对于大模型（如32B），同时增加脉动阵列维度和HBM带宽可以将延迟降低多达1.4倍，这表明大模型推理同时受到计算性能和内存带宽的限制。

关于SRAM大小的影响，当模型权重大于SRAM容量时（例如32B模型），增加SRAM大小对端到端延迟的影响非常有限。这是因为模型权重和KV缓存频繁溢出，导致SRAM仅充当临时计算缓冲区。只有当SRAM容量接近或能够容纳模型权重大小时，它才能有效加速LLM推理。

5.4 TP与核心布局策略

不同的TP划分策略

图9比较了在不同输入序列长度下，不同TP划分策略（TP=4）对请求延迟的影响。

图9：不同输入序列长度下TP划分策略对请求延迟的影响。结果验证了张量划分策略的场景适配性：当序列长度小于模型隐藏层维度（如4B模型隐藏层维度通常为2048，序列长度256/512）时，TP-K策略因AllReduce通信量少，较TP-MN实现最高6.03倍速度提升；当序列长度超过隐藏层维度（如2048），TP-K策略性能骤降（因K维度划分导致中间结果传输量激增），而TP-MN策略更优；TP-MNK策略因结合两种划分优势，在中等序列长度（512-1024）下平均实现1.44倍性能提升，是通用性最强的策略。这为LLM服务提供优化依据：短序列场景优先选TP-K，长序列选TP-MN，混合序列场景选TP-MNK。

当输入序列长度小于模型的隐藏层维度时，沿K维度的划分（TP-K）能提供更优性能。例如，在序列长度为256的Qwen3_4B模型上，TP-K比沿M/N维度的划分（TP-MN）快6.03倍。然而，一旦序列长度超过隐藏层维度，TP-K的性能会急剧下降。相比之下，二维划分策略（TP-MNK）表现出更均衡的性能，实现了平均1.44倍的加速。这一观察结果与理论性能分析相符。

核心布局策略

图10 | 不同核布局策略下的单请求执行延迟。展示了不同核心布局策略（线性交错：linear-interleave、线性顺序：linear-seq、网格：mesh、环形：ring）在不同张量并行度（TP=4、TP=16）下对Qwen3模型单请求延迟的影响，左纵轴为延迟（毫秒），右纵轴为相对加速比（以linear-interleave为基准）。实验分别采用64核心（TP=4）与256核心（TP=16）配置。

图10展示了在不同核心布局策略下，单请求执行的端到端延迟。在此设置中，“linear-seq”指严格遵循核心索引顺序的路由方案，而“linear-interleave”则指Wafer-LLM采用的、将每次传输限制为最多两跳的映射策略。评估基于64个核心（用于TP=4）和256个核心（用于TP=16）的配置进行。

5.5 LLM 服务性能

本节所有实验均应用先前总结的、最适合相应场景的最优策略。

5.5.1 PD 分离中的不同核心比例

评估了不同工作负载（输入-输出令牌比率）下，变化的预填充-解码核心比例对 LLM 服务性能的影响。此评估以具有 64 个核心的 Qwen3_4B 模型为例。

图 11：预填充-解码核心比例对 LLM 服务性能的影响

如图 11 所示，核心比例需根据工作负载动态调整：
* 增加预填充核心（如 P:D=49:14）可显著降低首令牌时间（TTFT）。例如，相较于 P:D=21:42，TTFT 减少了 40%，适用于对首响应时间敏感的场景（如对话式 AI）。
* 增加解码核心（如 P:D=21:42）则能有效降低平均端到端延迟。例如，在 100:100 的工作负载下，相较于 P:D=49:14，延迟降低了 68%。虽然解码核心数量对单个请求的令牌间延迟（TBT）影响有限，但更多解码核心提供了更高的调度并行度，能在高请求负载下实现更高的系统吞吐量。
* 均衡配置（如 P:D=42:21）实现了最佳权衡：相较于 P:D=49:14，TTFT 仅增加 13%，而 TBT 降低了 30% 以上；相较于 P:D=28:28，TTFT 降低了 22%，而 TBT 仅增加 10%。这种配置适合多数混合负载场景，在即时首响应和持续吞吐量之间取得了最优平衡。

5.5.2 PD 分离的异构核心设计

考虑到预填充阶段的计算密集特性和解码阶段的内存密集特性，研究团队进一步探索了为预填充和解码核心设计异构硬件资源的方案。通过改变两个关键架构参数——脉动阵列维度和 HBM 带宽——并自动调整 SRAM 带宽以匹配计算能力，评估了不同配置的影响。所有实验采用预填充：解码核心比例为 2:1，并基于台积电 7nm 工艺计算了单位芯片面积。

图 12：异构 PD 分离场景中不同硬件配置对服务吞吐量与 TBT 的影响

异构核心设计是 PD 分离的关键优化方向：
* 解码核心优化：解码阶段频繁访问 KV 缓存，是内存密集型任务。如图 12(a) 所示，增加解码核心的 HBM 带宽（如从 60GB/s 提升至 240GB/s）可使系统吞吐量提升 2.28 倍，单位面积吞吐量提升 2.18 倍。然而，进一步增加带宽（如至 480GB/s）后，性能瓶颈从内存带宽转向计算能力，吞吐量不再提升。另一方面，适度缩减解码核心的计算能力（如将脉动阵列从 64×64 降至 32×32）对整体吞吐量影响极小（<5%），但由于计算单元面积减少，单位面积吞吐量可提升 1.9 倍。
* 最优配置权衡：如图 12(b) 所示，最优硬件配置因优化目标而异。例如，配置 A32H60 适合优化 TBT（延迟最低），而配置 A32H240 则适合优化吞吐量。这为硬件设计提供了“按需分配资源”的指导原则。

5.5.3 PD 融合下的硬件优化

图 13：PD 融合下不同输入长度、SRAM 大小和流水线级数对端到端延迟的影响

图 13 展示了在 PD 融合架构下，输入令牌长度、每核心 SRAM 大小和流水线级数对端到端延迟的影响。PD 融合的性能受内存压力与并行度平衡的制约：
* SRAM 容量的关键作用：SRAM 容量是主要瓶颈。当每核心 SRAM 仅为 16MB 时，容量不足导致数据频繁溢出到 HBM。此时，采用更多流水线级数（如 36 级，意味着每个核心处理的层数更少，数据并行度更高）相较于 12 级或 18 级，能实现 1.1 倍至 1.61 倍的加速。
* SRAM 扩容的收益：随着 SRAM 容量增加，溢出减少，性能显著提升。例如，将 SRAM 从 16MB 增至 32MB，延迟降低了 2.6 倍至 3.7 倍。当 SRAM 增至 48MB 时，18 级流水线（每核心处理层数适中）成为最优选择，既能避免单核心内存压力过大，又能有效利用数据并行提升效率。
* 设计启示：PD 融合架构需要精细匹配 SRAM 容量与流水线级数。小容量 SRAM 宜采用多流水线级数以追求高并行度；大容量 SRAM 则可采用中等流水线级数，以更好地平衡并行效率与内存访问开销，从而缓解 PD 融合带来的额外内存压力。

5.5.4 PD 分离与 PD 融合比较

图 14：不同工作负载下 PD 分离与 PD 融合的吞吐量与 TBT 比较

图 14 比较了在各种工作负载下，PD 分离（包括异构配置）与 PD 融合在吞吐量和 TBT 上的表现。选择需结合具体工作负载特性：
* 解码占优场景（如 P:D=1:5，对话式应用）：PD 融合架构由于核心无需在预填充和解码任务间切换，避免了 PD 分离中预填充核心在解码阶段的闲置，因此吞吐量较异构 PD 分离高出 2.3 倍，单位面积吞吐量高出 1.77 至 2.3 倍。
* 预填充占优场景（如 P:D=10:1，长文本生成）：PD 分离架构避免了 PD 融合中因分块预填充带来的冗余计算，其吞吐量反而能超越 PD 融合，达到 1.34 倍的提升。
* TBT 稳定性：在 TBT 方面，PD 分离在所有场景下表现更为稳定（波动小于 5%）。而 PD 融合由于核心需要同时处理预填充与解码任务，资源竞争可能导致 TBT 最高增加 2.57 倍。

综上所述，PD 分离与 PD 融合各有优势，为 LLM 服务系统设计提供了明确依据：对话等解码密集型场景宜选择 PD 融合以最大化吞吐量；而长提示生成等预填充密集型场景则更适合采用异构 PD 分离以获得更优的延迟和效率。

当预填充/解码令牌比率低于1时，PD融合相比PD分离能提供超过2.3倍的吞吐量，以及每单位芯片面积1.77-2.3倍的吞吐量优势，这主要源于解码密集型阶段PD分离方案中核心的闲置问题。随着预填充令牌数量的增加，异构PD分离的吞吐量逐渐接近PD融合方案。
当比率达到10时，PD分离甚至能实现1.34倍更高的吞吐量。这是因为在长预填充场景下，PD融合方案由于采用分块预填充策略，会引入更多的冗余计算。

关于每次批处理时间（TBT），PD分离在不同工作负载下均能保持稳定的性能，而PD融合的TBT则会显著增加，最高可达2.57倍，这是由于每个核心需要同时处理分块预填充和解码任务。

5.6 NPU硬件架构与LLM系统设计指导

基于NpuSim模拟器和对LLM服务策略的全面分析，研究团队得出了关于多核NPU硬件架构设计及基于该架构的LLM服务系统的以下结论：

张量并行与核心布局：当序列长度较短或启用分块预填充时，执行ALLREDUCE GEMM操作更为高效。相反，对于未启用分块预填充的长提示场景，ALLGATHER或ALLGATHER与ALLREDUCE GEMM的组合策略更为可取。此外，将核心排列成环形拓扑能更好地匹配RING-ALLREDUCE/RING-ALLGATHER通信模式，与更复杂的交错序列布局相比，提供了更好的通用性。
片上SRAM设计：由于片上SRAM采用了细粒度管理，单纯增加SRAM容量带来的性能收益有限，除非整个模型的权重能够完全放入SRAM。
LLM服务系统设计：对于LLM服务工作负载，在预填充占主导的场景中，异构PD分离方案能带来更好的性能；而对于解码占主导的工作负载，PD融合方案则更为可取。

六、结论与展望

本文系统性地分析了面向多核NPU的硬件架构设计及LLM服务场景的优化策略。通过利用高效可配置的多核NPU模拟器，研究团队探索了多种硬件配置策略、张量并行与核心布局方法，以及PD分离与PD融合技术。实验结果表明，所提出的解决方案相比其他SOTA工作实现了1.32倍至6.03倍的性能提升。

本研究的重要意义体现在以下几个方面：

| 贡献类别 | 具体内容描述 |
| :— | :— |
| 方法学创新 | 提出了结合事务级模拟（TLM）与性能模型模拟的多级仿真框架NpuSim：内存和互连操作采用事务级模拟以保证精度，计算操作采用性能模型模拟以降低开销，在LLM推理这类“计算-内存混合负载”场景中实现了精度与效率的平衡，模拟误差可控制在10%以内。 |
| 系统性优化 | 围绕多核NPU的LLM服务场景，构建了全链路优化方案：
1. 张量划分：对比AllGather/AllReduce/混合策略，适配不同序列长度；
2. 核心布局：分析线性/环形/2D网格拓扑，匹配通信原语特性；
3. 内存管理：提出多粒度KV缓存方案，降低对大容量SRAM的依赖；
4. PD策略：优化PD分离（异构核心配置）与PD融合（分块预填充调度）。 |
| 实际指导价值 | 为硬件与系统设计提供了场景化指导：
1. 张量并行：短序列/分块预填充场景推荐使用AllReduce，长序列场景推荐使用AllGather或混合策略；
2. 硬件设计：SRAM需能容纳完整模型权重才能显著提升性能，解码核心宜增强内存资源、缩减计算单元；
3. 服务策略：预填充占优场景选择异构PD分离，解码占优场景选择PD融合。 |
| 开源潜力 | 所提出的NpuSim框架整合了ONNXim、Dramsys等模块，支持流式请求输入与多硬件配置模拟，具备开源基础。若开源，将有助于学术界与工业界快速验证多核NPU架构设计及LLM服务优化策略，推动多核NPU生态的技术迭代与标准化。 |

随着LLM模型规模的持续增长和应用场景的不断扩展，多核NPU架构将成为支撑大模型推理的关键基础设施。这项研究不仅提供了具体的技术方案，更重要的是展示了一种系统化的设计方法：通过精准的模拟分析来指导硬件架构与软件优化的协同设计。

未来的工作可以进一步探索：
* 更复杂的异构架构，包括不同计算单元和内存层次的混合设计。
* 动态自适应优化策略，能够根据工作负载特征实时调整配置。
* 跨多个多核NPU芯片的扩展方案，以支持万亿参数模型的推理。
* 与编译器、运行时系统的深度集成，形成完整的软硬件栈。

这项研究为多核NPU上的LLM服务优化奠定了坚实基础，有望推动下一代AI加速器的创新与发展。随着技术的不断演进，更高效、更智能的大模型推理将成为可能，从而进一步释放人工智能的潜力。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18459