突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

关键词：dLLMs、NPU、采样优化、d-PLENA、GEMM

扩散型大语言模型（dLLM）是一种融合了扩散模型迭代去噪特性的大语言模型，可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法（GEMM）为核心的 Transformer 层截然不同的计算特征。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling
https://arxiv.org/pdf/2601.20706
9000 字，阅读 30 分钟，播客 26 分钟

在现代图形处理器（GPU）上的性能分析表明，采样阶段的耗时可占模型总推理延迟的 70%。这一现象主要源于全词表逻辑值带来的大量内存读写、基于归约操作的 Token 选取，以及迭代掩码更新。

这些过程需要大容量的片上静态随机存取存储器（SRAM），且涉及非规则内存访问，而传统神经网络处理器（NPU，专为神经网络计算设计的专用硬件加速器）难以高效处理这类访问。为解决该问题，我们确定了 NPU 架构必须针对 dLLM 采样进行专项优化的一系列核心指令。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
图 3 | 面向扩散采样的新型神经处理单元（NPU）架构设计图。该架构为 d-PLENA 核心设计，采用解耦的混合精度存储层级，分设向量、浮点、整数 SRAM，搭配专用归约和逐元素计算单元，针对性优化采样的非 GEMM 操作，还通过专用解量化器实现 HBM 与片上存储的高效数据流转，适配采样的内存访问特性。

本文提出的设计采用了轻量级非通用矩阵乘法向量原语、in-place 内存复用策略，以及解耦的混合精度存储层级。

在同制程纳米工艺节点下， 这些优化措施相比英伟达 RTX A6000 图形处理器实现了最高 2.53 倍的加速比 。我们还开源了周期精确仿真和综合后寄存器传输级（RTL，硬件设计的抽象层级，描述数据在寄存器间的传输与处理逻辑）验证代码，验证了该设计与现有 dLLM 的 PyTorch 实现具备功能等价性。

零、关键问题

下面两个问题会从算法演进适应性和实际部署可行性两个维度切入，直指论文设计的潜在局限与未来挑战。

问题一：架构设计的可扩展性与通用性挑战

论文提出的 d-PLENA 架构通过定制 ISA 和专用硬件单元（如 Reduction Unit、FP Unit 等）显著优化了 dLLM 采样阶段的性能。然而，该架构高度特化于当前 dLLM 采样中的“Softmax→Top-k→Masked Update”流程。随着未来 dLLM 采样算法的演进（如更复杂的噪声调度、多候选采样、结构化输出约束等），当前的硬件设计是否可能因过度特化而失去通用性？论文中【未讨论】如何支持采样算法的动态更新或非规则化操作如层级化 Top-k、迭代式重采样等，这是否意味着该架构在面对【算法迭代时需频繁重构硬件或指令集】？

论文所提 d-PLENA 架构的核心设计哲学，并非固化于当前某一具体采样算法，而是识别并硬件优化了扩散采样中根本性、算法不变的计算模式。

作者明确指出，无论采样算法如何演进，其核心操作—— 词汇表扫描（vocabulary scanning）、归约（reduction）、排序（sorting）和掩码选择（masked selection） ——基本保持不变。因此，架构针对这些基础原语（Primitives）进行加速，具有天然的算法鲁棒性。

具体而言，其 ISA 扩展（如V_RED_MAX_IDX、V_TOPK_MASK、V_SELECT_INT）提供的是灵活的、组合性的基础指令，而非固化某个算法流水线。例如，V_TOPK_MASK指令实现的是通用的 Top-k 排序与掩码生成功能， 未来若算法演变为分层 Top-k 或带权重的选择，【只】需调整指令的控制逻辑或组合方式，而无需改变底层硬件数据通路 。FPU 对超越函数（如）的硬件支持，同样是为满足各类概率分布变换的基础需求。

然而，作者也承认当前设计对基于 Gumbel-max 的温度噪声采样等复杂组件暂未支持，将其列为未来工作。这暗示了架构的扩展方式：通过有限、可控的指令集扩展来吸纳新的算法需求，而非全盘重构。这种“基础原语+可扩展指令集”的设计思路，在通用性与效率间取得了平衡，旨在降低而非消除因算法迭代带来的适配成本。真正的挑战在于，未来若出现完全抛弃“归约-选择”范式的新采样机制，此架构可能需要更显著的调整。

问题二：能效与面积效率在实际部署中的权衡

尽管论文展示了 d-PLENA 在理想场景下（如大容量 Vector SRAM、全负载预载）相比 GPU 有高达 2.53 倍的加速比，但其设计中依赖大量专用硬件单元（如支持 O(k) 面积的 Top-k 排序模块）和分离的 SRAM 结构（Vector/FP/Int SRAM）。在资源受限的边缘设备或低功耗场景下，这种设计是否仍具有优势？ ，作者【未深入探讨】在内存带宽受限、SRAM 容量有限、或批处理大小较小时，其架构是否能保持高能效比，也未与现有边缘 NPU 如高通 Hexagon、苹果 Neural Engine 进行对比。这是否意味着 d-PLENA 更适合云端推理而非端侧部署？

论文已明确考虑并论证了其在边缘场景下的可行性，核心策略在于可配置的存储层次和计算分块。作者专门设置了“边缘模式”，通过参数 V_chunk 控制词汇表数据的分块加载，从而将 Vector SRAM 的占用从与词汇表大小成比例，降低为与可配置的块大小 V_chunk 成比例。

实验表明，即使在 SRAM 容量很小（<64kB）的情况下，架构仍能工作，且当 V_chunk 达到约 4k 条目时，性能即接近饱和。这意味着无需极大的片上存储即可获得高效能。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
表 4 | 不同向量长度（VLEN）配置下的综合后结果，标量区域面积恒定为 661 平方微米，列示向量区域面积、总功耗两项指标。

该表展示了 d-PLENA 在不同 VLEN 配置下的硬件面积与功耗特性。向量区域面积和总功耗随 VLEN 线性增长，而标量区域面积保持恒定。这说明架构的模块解耦设计具备良好的可扩展性，可根据实际应用的性能与功耗需求灵活调整 VLEN，从而适配从边缘端低功耗到高性能的各类场景。

关于面积与能效，作者提供了详实的后综合数据（见表 4）。数据显示，虽然向量数据通路面积随 VLEN 线性增长，但标量与控制部分面积恒定且较小。在 VLEN=512（适中的并行度）的配置下，总功耗为 381.72mW，这对于边缘设备是可接受的范畴。关键的是，该设计通过专用指令极大减少了控制和调度开销（仅占总周期约 12%），并通过原位计算和混合精度存储减少了数据移动，这些正是提升边缘设备能效的关键。

当然，论文未与商业边缘 NPU 进行直接对比，这是一个局限。但其设计原则——通过轻量级非 GEMM 指令、解耦存储、可配置数据流来匹配采样工作的不规则性与内存密集特性——正是针对现有边缘 NPU 在此类任务上效率不足而提出的。因此，d-PLENA 并非简单地用面积换性能，而是通过体系结构级的专用化，为扩散采样这一特定但重要的负载提供了一种更优的能效比选择。它在边缘部署的适用性最终取决于具体场景对采样延迟、功耗和成本的权衡，而论文已证明其在资源受限下具备可工作的设计弹性。

一、引言

自回归型（AR）大语言模型（LLM）在解码阶段受限于 Token 的串行生成方式，这导致其在高吞吐量加速器上出现内存受限瓶颈。

扩散型大语言模型（dLLM）[1]作为一种极具潜力的替代方案应运而生，其通过并行 Token 去噪平摊 Token 依赖关系，提升了计算并行度。dLLM 通过在迭代去噪步骤中联合优化多个 Token，提高了解码阶段的计算密度，并缓解了自回归解码固有的内存带宽限制。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
图 1 | LLaDA 模型在 NVIDIA RTX A6000 GPU 上的时延拆解，测试覆盖广泛的参数空间：批次大小 1 至 32、去噪步数 1 至 32、生成长度 64 至 1024 个 token、块大小 8 至 64。

该图实证了 dLLM 采样阶段的时延占比高达 71%，成为推理的核心瓶颈。即便 Transformer 去噪阶段占浮点运算主体，采样的词汇级归约、不规则内存访问等操作，仍让其成为端到端时延的主要贡献者，也印证了优化非 GEMM 核心的采样阶段的必要性。

然而，这种生成范式的转变带来了新的系统性低效问题。图 1 展示了两款典型 dLLM（LLaDA-8B-Instruct 和 LLaDA-MoE-7B-A1B）的延迟拆解结果，该结果由 dInfer 推理框架[2]结合优化的 vLLM 后端评估得到。

我们的实证分析表明，尽管基于 Transformer 的去噪阶段（模型层）占据了浮点运算的绝大部分，但后续的采样阶段——执行全词表归约、基于排名的选取和非规则内存访问——在端到端延迟中占比过高，在混合专家模型（MoE）和双键值缓存（KV-cache）配置下，该占比甚至达到 71%[3]。

随着研究界采用愈发激进的量化技术（如 4/8 位的权重与激活值量化），模型层的执行时间预计将进一步缩短。根据阿姆达尔定律，效率低下的采样阶段将不可避免地成为长尾瓶颈，制约模型侧优化带来的吞吐量收益。

在每次去噪迭代中，采样阶段会生成维度为 $B times C times V$ 的逻辑值张量，其中 $B$ 为批次大小，$C$ 为块大小，$V$ 为词表大小（在 LLaDA[4]和 DREAM[5]等最先进的 dLLM 中，词表大小可达 120~160k）。即使是 $B=1$ 的单批次，在 16 位浮点表示下也需要 16~19MB 的内存空间。多个待处理批次的内存需求往往超出片上内存容量，迫使数据通过双倍数据率内存（DDR）/高带宽内存（HBM）进行片外传输，进而加剧延迟。

采样量化虽为减少内存流量提供了一种有效的正交方案，但本文的研究重点在于解决非通用矩阵乘法（non-GEMM）为核心的采样工作负载，与现代 NPU 中以通用矩阵乘法（GEMM）为核心的执行流水线之间的根本性结构不匹配问题。

以 PLENA[6]为代表的当代 NPU 设计，针对注意力层和多层感知机（MLP）层等稠密矩阵计算进行了深度优化，但对扩散采样所需的控制密集型、归约密集型和内存非规则操作仅提供有限支持。这导致采样阶段要么产生显著的指令开销，要么被卸载到主机中央处理器（CPU）执行，降低了整体硬件效率和利用率[7-10]。

为应对这些挑战，我们提出了 d-PLENA——一种以向量-标量为核心的架构扩展，可实现 dLLM 采样在 NPU 上的高效执行。本文的研究贡献如下：

设计了一种适用于基于归一化指数函数（softmax）的扩散采样的硬件友好执行流程，该流程支持原地计算和分阶段内存复用，同时与标准实现保持数值等价性；

提出了一组轻量级非通用矩阵乘法指令集架构原语，用于加速最大值索引查找（ArgMax）、前 k 个选取（Top-k）和掩码 Token 更新，这些操作是实现高效扩散采样的关键；

设计了解耦的混合精度存储层级，分离浮点和整数数据域，减少了内存碎片和控制路径干扰；

通过周期精确仿真和综合后寄存器传输级验证开展综合评估，验证了设计的数值正确性，并分析了批次大小、扩散步骤和词表大小对采样延迟、片上 SRAM 利用率、HBM 带宽和整体硬件效率的影响。

二、背景与动机

2.A PLENA 加速器

PLENA[6]为基于 Transformer 的 LLM 推理提供了端到端的 NPU 开发栈，包括定制化指令集架构、编译器、周期精确仿真器和自动化设计空间探索工具。

其指令集架构专为 Llama-3 等标准自回归型 Transformer 大语言模型设计，对通用矩阵乘法（GEMM）密集型层、归一化操作和快速注意力机制（FlashAttention）[11]提供原生支持。
该仿真器通过 Ramulator[12]对支持 HBM 的内存系统进行建模，能够对 Transformer 推理工作负载的内存带宽、延迟和数据搬移进行详细且贴合实际的分析。

尽管 PLENA 在处理传统自回归工作负载时表现出色，但它并未为扩散型采样中出现的操作模式提供显式的架构或工具链支持。

2.B 扩散型大语言模型与分块采样

LLaDA[4]等扩散型大语言模型通过迭代去噪生成 Token，而非严格的自回归解码。

在每个扩散步骤 $t$，模型为每个 Token 位置预测全词表逻辑值，并将其转换为分类分布：

$$P_t = text{softmax}(logits_t)$$

其中 $V$ 表示词表大小。

对于批次大小为 $B$、总生成长度为 $L$ 的任务，单个扩散步骤会生成维度为 $B times C times V$ 的逻辑值张量，该张量是采样阶段的核心数据结构。模型会根据每个 Token 位置对应的词表分布 $P_t$ 计算一个标量置信度分数，例如最大预测概率。

随后，模型选取置信度分数最高的前 k 个 Token 位置进行解掩码，确定其预测 Token，而其余位置保持掩码状态，并在后续扩散步骤中继续优化，如图 2 所示。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
图 2 | 扩散大语言模型（dLLM）的工作流程。在每个时间步，Transformer 预测 token 的置信度，并更新置信度排名前 k 的掩码位置，以逐步优化序列生成。该流程展示了 dLLM 迭代去噪的核心逻辑：区别于自回归解码的串行生成，dLLM 通过多轮掩码更新实现 token 的并行优化。Top-k 选择机制使高置信度 token 提前确定，剩余掩码 token 则持续迭代，从而大幅提升生成并行度，但也带来了频繁的内存更新开销。

近期的分块 dLLM 方法进一步提升了效率。该方法在块间采用自回归解码，而在块内执行并行扩散。在此执行模型下，每个扩散步骤仅针对长度为 $L$ 的活跃 token 块进行操作，处理对应的子张量 $X_t$。其余 token 位置要么已确定，要么延迟至后续块处理。因此，生成长序列需要遍历 $N$ 个块，并在每个活跃块内独立执行扩散操作。

尽管扩散采样算法仍在演进，但其核心操作——如词表扫描、归约、排序和掩码选取——基本保持不变。本文针对这些核心采样原语展开研究，并将其映射为硬件高效的执行方式，相关实现在后文算法 2 中进行了形式化定义。

三、方法

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
图 3 | 面向扩散采样的新型神经处理单元（NPU）架构设计。该架构为 d-PLENA 的核心设计，采用解耦的混合精度存储层级，分设向量、浮点、整数 SRAM，并搭配专用归约和逐元素计算单元，以针对性优化采样过程中的非 GEMM 操作。此外，通过专用解量化器实现 HBM 与片上存储的高效数据流转，适配采样的内存访问特性。

3.1 提出的神经网络处理器架构

如图 3 所示，该系统采用多域存储层级，以高效处理异构数据类型。逻辑值等大规模张量以 MX 格式（一种轻量化量化存储格式）存储在 HBM 中。

采样过程中，这些逻辑值通过专用反量化器流式传入向量 SRAM。反量化器将 MX 编码的数据转换为可配置的浮点格式（如 BF16，16 位脑浮点格式），以兼顾精度和存储效率。

为缓解内存碎片和对齐开销，片上存储被解耦为向量 SRAM、浮点（FP）SRAM 和整数（Int）SRAM。其中，整数 SRAM 与高吞吐量向量数据通路物理隔离，并通过先进先出（FIFO）缓冲区与主机交互，以最小的控制路径干扰输出最终 Token 标识。

执行核心由多个专用计算单元组成，并由指令解码器协调工作。向量单元包含两个核心模块：归约单元和按元素计算单元。

归约单元：以向量长度（VLEN）为块处理数据，支持最大值、求和等操作，生成的标量输出会转发至浮点单元或整数单元。
按元素计算单元：保留向量维度，支持多操作数向量运算。

为加速非线性采样核，浮点单元对指数函数 $e^x$、倒数 $1/x$ 等超越函数提供硬件原生支持。这些计算结果可直接广播回向量单元，或通过浮点 SRAM 进行缓冲。

3.2 硬件友好的采样流程

为简化 NPU 的执行流程，我们将采样流程重构为硬件友好的稳定最大值（Stable-Max）形式，如算法 1 所示。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
算法 1 | 算法转换：软件级归一化指数函数与硬件友好的稳定最大值。算法对比了标准 Softmax 与硬件友好型 Stable-Max 两种实现方式。前者是 PyTorch 原生方案，需先找 logits 最大值索引，再做软最大化计算并提取对应概率，涉及多轮内存访问且全局归一化效率较低；后者为 NPU 优化设计，先提取 logits 最大值，经指数偏移、求和后取倒数得到目标概率，将计算拆解为原子操作，适配硬件专用计算单元，支持原地计算，大幅降低内存开销。

传统的归一化指数函数需要多次内存访问和全局归一化，而优化后的方法将计算拆解为可直接映射至专用硬件模块的原子原语。

具体而言，归约单元提取最大值，浮点单元计算 $e^{x_i – m}$ 和倒数 $1/s$，中间的偏移指数值在向量 SRAM 中进行原地回写，覆盖原始的逻辑值缓冲区，以保持高内存利用率。

3.3 面向扩散型大语言模型的指令集架构扩展与分阶段采样执行

表 1 总结了本文提出的指令集架构扩展，后文算法 2 概述了 LLaDA 采用的高层级扩散采样流程。为简化表述，本文省略了基于冈贝尔最大值技巧（一种用于离散分布采样的随机化方法）的温度噪声分量，该部分将在后续工作中补充。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
表 1 | 定制指令集架构（ISA）指令汇总表，列示指令格式与对应的功能描述。该表是 d-PLENA 架构为适配 dLLM 采样设计的核心非 GEMM 指令集，覆盖标量存储、向量归约、Top-k 掩码、整数选择等关键操作。每种指令均针对性解决采样中的内存访问、排序选择、掩码更新等痛点，且与 PLENA 原有指令兼容，实现了采样逻辑在 NPU 上的原生硬件执行，大幅降低指令调度开销。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
算法 2 | 面向 dLLM 的硬件感知型块内采样。†块词表大小（$V_b$）控制分块处理：对于 SRAM 容量受限的边缘设备，配置 $V_b = V$；对于资源充足的场景，可扩展至 $V_b < V$，通过外层循环预加载最大化数据复用。算法 2 为 dLLM 打造硬件感知的块内采样流程，先对提示词做分块掩码处理，按扩散步数确定待更新 token 数。每步由模型生成 logits 后筛选掩码位置，经四阶段硬件执行完成置信度计算、Top-k 筛选与掩码更新，支持词汇量分块处理以适配不同硬件资源。迭代完成所有步数后输出最终 token 序列，实现采样逻辑与 NPU 架构的高效适配。

结合表 1 和算法 2 来看，基于 Transformer 的数据流被封装在 model() 操作中，其输出的逻辑值作为采样阶段的输入。model() 操作在每个扩散时间步 $t$ 被调用：
* 在第一个时间步，输入为拼接后的提示词和掩码 Token 的分块切片；
* 在后续时间步，更新后的 Token 序列 $X_t$ 会在 $T$ 个扩散步骤中迭代回传。

本文提出的指令集架构原语在每次迭代中被调用，并与现有的 PLENA 指令协同工作。我们将采样过程划分为四个硬件可见的执行阶段，表 1 中的指令会在这些阶段中被调用。

3.4 协同设计与验证框架

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速
图 4 | 软硬件协同设计与验证流程，包含跨层级的精度和时延校验环节。该流程实现了 d-PLENA 从软件逻辑到硬件实现的闭环验证。前端编译器完成 PyTorch 采样逻辑到定制 ISA 的映射，通过周期仿真器与软件基准做精度比对，再经 RTL 实现和综合工具评估硬件开销，保障设计的功能正确性与性能可预测性。

图 4 展示了本文的软硬件协同设计框架。
* 前端编译器通过自动化调度和代码生成，将 PyTorch 配置的采样逻辑映射至增强型 d-PLENA 指令集架构。
* 在架构验证阶段，将仿真器导出的行为与基于 PyTorch 的软件参考实现进行交叉验证，确保数值精度。
* 最后，将设计以寄存器传输级实现，并通过新思科技的综合工具评估面积和功耗开销。

该闭环框架确保新的架构优化在保持高功能保真度的同时，具备可预测的硬件性能。

四、实验结果

4.1 实验设置

基于支持HBM2e的周期精确仿真器进行功能评估。通过基于Cocotb开源硬件仿真测试框架的仿真，验证了SystemVerilog寄存器传输级设计的正确性。使用7纳米OpenROAD工艺设计包，在1 GHz时钟频率下，通过新思科技设计编译器（DC）完成了综合，并获得了面积与功耗结果。

评估过程中采用以下数值格式：
* MX格式：MXFP8（E4M3，8位浮点格式，4位指数、3位尾数）。
* 浮点计算与存储：BF16格式。
* 整数处理：32位整数（INT32）格式。

本节后续内容分为两个主要场景进行评估：
* 4.2节 聚焦于片上SRAM容量受限的边缘场景，配置遵循算法2，评估向量长度为64和128的情况。该场景下延迟相对较高，但SRAM占用量低于64kB。
* 4.3节 假设将整个逻辑值张量预加载至向量SRAM，以消除从HBM到SRAM的多次数据搬移，评估性能模式下的表现。

4.2 延迟与内存利用率

本节系统评估了扩散采样原语的性能，实验遍历了核心工作负载参数，并排除了model()操作的执行以隔离采样开销。所有实验均固定生成长度。

实验设计如下：
1. 固定词表大小、块词表大小，通过遍历批次大小和扩散步骤数 ∈ {2,4,8,16,32}，评估其可扩展性（对应图5(a)和5(b)）。
2. 固定批次大小、扩散步骤数、块词表大小，通过遍历词表大小从2k至128k，研究词表大小的影响（对应图5(c)）。
3. 在最大词表大小配置下，固定批次大小、扩散步骤数，通过遍历块词表大小从128至30k，分析块词表大小的影响（对应图5(d)）。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

关键发现：
* 图5(a)~5(c)表明，采样延迟随批次大小、扩散步骤数和词表大小近似线性增长，而实际达到的HBM带宽基本保持恒定。这证明在该设计下，这些工作负载维度具备稳定的带宽利用率和可预测的性能扩展特性。
* 图5(d)显示，增大块词表大小可通过平摊控制和归约开销，有效降低采样延迟并提升HBM带宽利用率。当块词表大小超过约4k条目后，延迟和带宽指标趋于饱和，表明实现接近峰值效率无需大容量向量SRAM，此特性有利于边缘部署。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

每个子图的底部插图报告了向量长度配置下的片上SRAM占用量（字节）。SRAM成本评估方式为：将公式2~4确定的元素数量乘以其各自的字节宽度。对于向量SRAM，B=1对应边缘模式；在性能模式下，可将B*C个元素从HBM预加载至SRAM（其中B=1且C可被VLEN整除）。本文仅报告VLEN=64的SRAM使用情况，原因在于整数SRAM和向量SRAM的占用量与VLEN无关，而浮点SRAM仅存在与VLEN成比例的小附加项差异。

结论：在提出的原语设计下，边缘场景的所有参数遍历结果表明，片上SRAM占用量主要由批次大小和块词表大小决定；改变扩散步骤数、词表大小或向量长度，对整体内存需求无实质性影响。

4.3 执行效率与瓶颈分析

表2对比了GPU与d-PLENA在相同采样工作负载下的性能。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

本实验中设置B=1，即每次迭代将单批次的全块逻辑值预加载至向量SRAM，以平衡SRAM的内存需求和HBM的数据传输。当向量长度取{512,1024,2048}时，d-PLENA相比NVIDIA RTX A6000 GPU实现了最高2.53倍的加速比。

表3进一步对d-PLENA（VLEN=2048）的最大测试用例进行了指令级延迟拆解。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

结果表明，向量操作主导了执行过程，占总周期的48.2%。具体而言，硬件加速的归约求和和最大值索引函数大幅压缩了计算延迟。
此外，HBM预取逻辑实现了67.7 GB/s的高带宽利用率，为向量单元提供了充足的数据供给。标量和控制开销被控制在12%以下，证明了专用指令集架构有效最小化了调度开销。

4.4 综合后面积与功耗评估

表4报告了不同向量长度配置下的综合后结果。

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

综合结果表明，向量数据通路的面积与VLEN近似线性增长，而标量和控制模块的面积基本不受VLEN的影响（标量模块面积恒定为661 μm²）。总功耗随VLEN线性增长，这说明了架构的模块化解耦设计具备良好的可扩展性，可根据实际应用的性能与功耗需求灵活调整VLEN。

五、结论

随着扩散大语言模型应用的普及，以及模型侧核函数的深度优化与量化，采样阶段的长尾延迟已成为制约端到端性能的关键瓶颈。

本文分析了扩散采样带来的架构挑战，并提出了针对性的硬件优化方案。所提出的采样原语广泛适用于归约/选取密集型工作负载，未来可作为标准特性集成到神经网络处理器中，以高效应对类似的计算需求。

参考文献

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20976

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

零、关键问题

问题一：架构设计的可扩展性与通用性挑战

问题二：能效与面积效率在实际部署中的权衡

一、引言

二、背景与动机

2.A PLENA 加速器

2.B 扩散型大语言模型与分块采样

三、方法

3.1 提出的神经网络处理器架构

3.2 硬件友好的采样流程

3.3 面向扩散型大语言模型的指令集架构扩展与分阶段采样执行

3.4 协同设计与验证框架

四、实验结果

4.1 实验设置

4.2 延迟与内存利用率

4.3 执行效率与瓶颈分析

4.4 综合后面积与功耗评估

五、结论

参考文献

相关推荐

推理成本突破1元/百万token：浪潮信息元脑HC1000如何重塑AI产业竞争格局

突破多GPU性能瓶颈：Triton与Iris融合通信计算，重塑分布式大模型推理新范式

何恺明团队颠覆生成模型范式：漂移模型实现单步推理，告别迭代训练

清华&生数开源TurboDiffusion：视频生成加速200倍，实时创作时代来临

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践