Voyager：基于HLS的端到端DNN加速器设计框架，实现56%面积优化与61%延迟降低

关键词：Voyager、 DNN Accelerator 、High-Level Synthesis 、Design-Space Exploration 、Quantization

近年来，深度学习模型在计算机视觉、自然语言处理等领域取得了巨大成功，但其庞大的计算量和内存需求对硬件提出了极高要求。传统的通用处理器难以高效运行这些模型，因此设计专用硬件加速器成为研究热点。然而，设计一个高效的 DNN 加速器是一项极其复杂、耗时且高度依赖于人工经验的任务 ，涉及架构设计、数据流映射、量化策略、编译优化等多个环节，且难以在不同设计点之间灵活迁移。

表 1 | Voyager 与先前 DNN 加速器生成器的特性比较。Voyager 在数据类型多样性（支持 Posit/自定义）、多精度、微缩化量化、软件支持（PyTorch）和 SoC 集成方面均领先于其他方案。Voyager 的独特价值在于，它首次将广泛的硬件参数化、前沿的量化支持、高效的软硬件协同设计和实用的设计空间探索工具整合到了一个统一的、端到端的框架中。

现有工作虽然尝试自动化加速器的生成，但往往在设计空间探索的广度 、硬件实现的成熟度 、量化方案的支持度 以及软件编译的完整性 等方面存在局限。 面对快速演进的模型架构和多样化的部署场景，我们需要一个更强大、更灵活的自动化框架。

近日，来自斯坦福大学的研究团队提出Voyager ——一个基于高级综合（HLS）的、端到端的 DNN 加速器设计空间探索与生成框架。

Voyager 不仅能够生成高性能、可直接流片（tapeout-ready）的 RTL 设计，还支持广泛的数据类型、先进的量化策略（如微缩化量化），并配备了一个高效的 PyTorch 编译器，实现了从模型到硬件的全自动映射。

图 1 | Voyager 端到端框架概览。用户输入架构参数（数据类型、量化方案、PE 数量、缓存大小等）。Voyager 的硬件生成器基于 HLS 模板生成针对特定工艺节点和时钟频率优化的 RTL。同时，其 C++模型支持快速评估量化后模型的精度。生成的 RTL 可通过仿真和综合获得运行时、能耗和面积估计。PyTorch 编译器则负责将模型映射到加速器指令集。

一、引言：DNN 加速器设计的自动化之困

深度神经网络的成功离不开专用硬件加速器的支撑。从早期的谷歌 TPU，到英伟达的 NVDLA，再到众多学术界的开源设计（如 Gemmini、MAERI），这些加速器通过定制化的计算阵列、内存层次和数据流，显著提升了能效和性能。

然而，设计这样的加速器依然是一个“艺术”多于“科学”的过程，面临四大核心挑战：

设计空间巨大 ：计算单元数量、片上缓存大小、外部内存带宽、数据流策略等参数相互耦合，构成一个高维设计空间，手动遍历寻优几乎不可能。
量化与精度权衡复杂 ：为了降低功耗和存储，模型通常需要量化到低精度（如 INT8、INT4）。但不同模型、不同层对量化的敏感度不同，需要精细的逐层或逐块量化策略（如微缩化量化），而现有工具对此支持有限。
软硬件协同设计缺失 ：一个高效的加速器不仅需要优秀的硬件，还需要与之匹配的编译器，能将高层模型描述（如 PyTorch）高效地映射到硬件指令集上。许多工作只解决了硬件生成问题，将繁重的映射工作留给了用户。
缺乏系统级整合 ：生成的加速器需要能集成到完整的片上系统（SoC）中，与 CPU 协同工作，这要求其接口和通信协议符合标准。

Voyager 的诞生，正是为了系统性解决这些问题。它提供了一个高度参数化的硬件模板 、一个支持前沿量化方案的编译器 ，以及一个集成化的设计空间探索环境 ，将加速器设计从“手工雕刻”推向“自动化生成”。

二、 Voyager 整体框架与核心思想

Voyager 是一个端到端的框架，其工作流程如图 1 所示，完美闭环了从架构参数定义到最终性能评估的整个过程。

Voyager 的核心思想在于分离关注点 与协同优化 ：

硬件生成器：通过 C++ 模板元编程，将硬件架构的各个方面（如计算资源类型、数量、调度策略）参数化，并利用高层次综合工具生成高质量的寄存器传输级代码。
软件编译器：深入理解所生成硬件的具体能力（如支持的算子融合、地址生成器特性），对 PyTorch 模型进行量化、算子融合、循环分块和调度优化，最终生成高效的机器指令。
评估与探索：提供从快速的功能/精度仿真到精确的性能/面积评估的多层次工具链，支持高效的设计空间探索。

三、 Voyager 加速器架构模板：矩阵与向量的共舞

Voyager 生成的加速器基于一个灵活而高效的模板，其核心由两个高度协同的单元构成：矩阵单元和向量单元，如图 2 所示。

图 2 | Voyager 加速器模板。左侧为矩阵单元，包含输入/权重获取器与缓存、脉动阵列、累加缓存。右侧为向量单元，是一个多级流水线，用于执行逐元素和规约操作。

3.1 矩阵单元：高效处理卷积与 GEMM

矩阵单元的核心是一个权重静止型脉动阵列。在这种数据流中，权重被预先加载到每个处理元中并保持静止，而输入激活值从左向右流动，部分和从上向下累积。这种结构非常适合卷积和通用矩阵乘法这类计算密集型、数据可重用的操作。

为了隐藏权重加载的开销并实现高利用率，Voyager 的矩阵单元采用了三重缓冲寄存器和瓦片级流水技术。当处理元正在计算当前数据块时，下一个数据块的权重可以同时通过列方向的移位寄存器链载入，从而实现了计算与通信的重叠。

矩阵单元的数据流在运行时是可配置的，这得益于其可编程的地址生成器。这些生成器负责从主存中获取输入和权重的数据块，并将其存入独立的多缓冲中，实现了内存访问与计算的重叠。更强大的是，这些地址生成器支持精细的循环顺序和边界控制，甚至能在数据加载时直接完成转置和置换操作，从而将转置与 GEMM 操作融合，消除中间张量。

3.2 向量单元：灵活处理非计算密集型操作

深度神经网络中并非所有操作都适合用脉动阵列处理。非线性激活、逐元素相加、层归一化、Softmax 等操作计算密度低、控制逻辑复杂。Voyager 使用一个N 路多级向量单元来高效处理这些操作。

向量单元是一个可配置的多级流水线（见图 2 右侧），每一级可以执行一个特定的逐元素操作或直接转发数据。通过合并常用深度神经网络操作的数据流图，Voyager 构建了一个能够最大化算术单元复用且不影响延迟的完整流水线。

创新亮点：可编程非线性函数近似

对于非线性函数，Voyager 没有为每个函数配备专用的查找表或固定多项式电路，而是设计了一个单一的可编程近似单元。

在编译时，模型中的每个非线性函数（如 GeLU）会被一个由 7 个二次分段组成的自由节点样条近似。分段边界和系数被编码到指令中。
在运行时，该单元根据输入值选择分段并计算多项式值。这种方法在保证精度的同时，实现了硬件的高效复用。

图 3 | Softmax 在向量单元上的三遍映射。以 Softmax 为例，展示向量单元如何通过多遍处理复杂操作。第一遍：从内存读取张量，在规约单元中计算维度上的最大值，写回内存。第二遍：同时读取原始张量和最大值，进行平移、指数运算，并规约求和得到分母，写回内存。第三遍：读取原始张量、最大值和分母，执行平移、指数和除法，得到最终概率，写回内存。

3.3 用户自定义扩展与 SoC 集成

Voyager 的灵活性还体现在支持用户自定义计算单元。例如，深度可分离卷积的数据复用率远低于标准卷积，用脉动阵列加速效率低下。用户可以集成一个专用的、由可配置 MAC 树构成的深度可分离卷积单元（如图 4 所示），其输出可直接馈入向量单元进行后续处理。

图 4 | 用户自定义的深度可分离卷积单元。一个示例性的用户自定义扩展模块，用于高效处理深度可分离卷积。图 5 | 使用 Chipyard 框架将 Voyager 加速器集成到 SoC

更重要的是，Voyager 生成的加速器并非孤岛。它可以无缝集成到基于 RISC-V 的片上系统中，如图 5 所示。通过利用 Chipyard 框架，Voyager 加速器可以作为内存映射 I/O 外设接入系统，通过 TileLink 总线访问片上 L2 缓存和片外 DRAM，实现了从独立加速器到完整系统的评估闭环。

四、硬件生成器的深度参数化：赋能设计空间探索

Voyager 硬件生成器的强大之处在于其三个维度的深度参数化，如图 6 所示：资源分配、资源类型和调度策略。这使用户能够精细地探索设计空间，寻找在性能、面积、功耗和精度之间的最佳平衡点。

图 6 | DNN 加速器设计空间。Voyager 的设计空间沿着三个轴展开：资源分配（计算/内存规模）、资源类型（数据类型/量化方案）和调度（循环变换）。

4.1 资源分配：计算与内存的规模调节

用户可以配置脉动阵列的尺寸、输入/权重/累加缓存的大小以及外部内存带宽。

增大阵列可以减少延迟，但会增加面积和功耗；
增大片上缓存能提升数据复用、减少访存，但会增加缓存访问能耗和面积。

Voyager 允许用户独立调整这些参数，以匹配目标工作负载和系统约束。

4.2 资源类型：数据类型与量化方案的革命性支持

这是 Voyager 最突出的创新点之一。它支持的数据类型和量化方案的广度远超以往工作。

1. 广泛的内置与自定义数据类型

通过 C++ 模板元编程，Voyager 将计算单元的数据类型完全参数化。除了标准的整数、浮点数外，它还原生支持Posit 格式——一种声称在某些场景下能超越浮点数的替代格式。

代码清单1：通用处理元模块

更强大的是，Voyager 支持用户自定义数据类型。用户只需实现一个包含 mac 等算术运算接口的类，即可将其集成。例如，可以实现一个基于码本的 NormalFloat4 类型，或是支持多精度混合运算的硬件，在运行时为不同精度的层选择不同的数据类型。

2. 先进的微缩化量化支持

传统量化通常为整个张量或每个通道使用一个缩放因子。微缩化量化则更进一步，沿着归约维度为小块数据应用独立的缩放因子，能在极低精度下更好地保持精度。

图 7 | 支持微缩化量化的矩阵单元。微缩化量化硬件实现。输入/权重为低精度整数（附缩放因子），在脉动阵列中高精度累加，通过缩放因子乘积反量化后存入累加缓存。

Voyager 是首个能为微缩化量化生成专用硬件的框架。如图 7 所示，它在矩阵单元内部集成了额外的反量化逻辑。输入和权重以低精度整数存储，并带有 E8M0 格式的缩放因子。脉动阵列以更高精度整数进行累加，然后使用输入和权重的缩放因子乘积，将部分和反量化为浮点格式。

4.3 HLS C++编码风格优化

Voyager 的另一个精妙之处在于其对高层次综合工具特性的深刻理解。

图 8 | 编码风格对 HLS 生成 RTL 的影响。我们将循环从标准的嵌套循环（顶部）重构为带有常量预计算和中断的循环（底部）。

通过优化 C++ 编码风格，如图 8 所示，将循环边界、步长等常量预计算移出循环体，并将循环重构为内部带中断条件的无限循环，可以显著改善 HLS 生成的 RTL 质量，在时序和面积上取得更好的结果。

五、 Voyager 编译器：从 PyTorch 模型到硬件指令的智能映射

仅有强大的硬件还不够，需要一个同样智能的编译器来驾驭它。Voyager 的编译器与硬件模板协同设计，其工作流程如图 9 所示。

图 9 | Voyager 编译器工作流程。编译器接收 PyTorch 模型，经过前端转换为中间表示（IR），进行量化、硬件感知的优化（融合、分块），最后生成针对加速器指令集的矩阵/向量指令。

5.1 前端与量化

编译器前端使用 PyTorch 2 Export（PT2E）提取静态计算图。其内置的量化框架提供了远超主流 ML 框架的灵活性，允许用户对权重、激活值、偏置等进行细粒度的量化控制，支持所有内置及自定义的数据类型和量化方案（包括微缩化量化）。

5.2 硬件感知的算子融合

编译器能识别并融合匹配硬件能力的操作序列，这是提升性能的关键。

计算融合：例如，将“卷积 -> 反量化 -> ReLU”序列融合为单个硬件指令，在一个流水线中完成，减少了中间数据写回内存的开销（如图 13）。

图 13 | 编译器执行量化节点和运算节点的融合。在这个示例中，它用一个单一的融合运算替代了卷积-反量化-ReLU。

重塑融合：Transformer 中的多头注意力包含大量转置和维度置换操作。Voyager 的向量单元地址生成器能在访存时直接完成这些重塑操作。编译器将线性投影层与随后的置换/转置融合，消除了中间张量，大幅降低了内存访问和延迟（如图 12）。

图 12 | 自注意力机制中的重塑与矩阵乘法融合。

5.3 调度与指令生成

将 DNN 映射到硬件的核心挑战之一是调度——决定循环如何分块、排序、展开和融合。不同的调度策略会产生截然不同的数据复用模式和性能。

Voyager 通过扩展Interstellar 调度器来解决这个问题。Interstellar 使用一个粗粒度的分析成本模型来估计内存能耗。Voyager 对其进行了两处关键扩展：

可行性约束：将搜索空间限制在 Voyager 加速器硬件上实际可行的调度方案。
精确性能模型：建立了一个考虑硬件细节（如权重加载延迟、双缓冲效果、向量单元反压）的细粒度性能模型，能够快速而准确地预测运行时。

图 15 | 使用扩展版 Interstellar 生成的循环调度示例。这里是一个针对卷积层的多层循环嵌套调度示例，显示了在 L2 缓存级、累加缓存级和脉动阵列级的不同循环展开和并行策略。

基于优化后的调度和中间表示，编译器最终生成配置硬件所需的指令。矩阵单元指令编码了循环边界、顺序和步长，如图 16，向量单元指令则配置其多级流水线的功能。

图 16 | 矩阵单元指令子集。一个矩阵单元指令的数据结构，包含输入/权重/偏置的基础地址、各层循环的边界数组，以及各个维度（x, y, 归约维，输出通道）在循环数组中的索引映射。

六、实验结果：性能、面积与灵活性的全面胜出

研究团队在 TSMC 16nm 等工艺节点上，对 Voyager 进行了全面评估，涵盖了 ResNet、MobileNet、ViT、BERT、LLaMA 等多种视觉和语言模型。

6.1 框架内部优化效果

编码风格优化：使最大工作频率从 400MHz 提升至 1GHz，在同等频率下面积仅增加 1.7%。
算子融合：带来了 12.66% 的运行时提升。
双缓冲累加缓存：解耦矩阵和向量单元，缓解了反压，降低了 3% 的运行时。

6.2 设计空间探索展示

1. 数据类型与量化探索

表 3 | 不同数据类型在视觉和 NLP 模型上的准确率。在 ImageNet 分类和 SST-2 情感分类任务上，微缩化量化整数（MXINT8）在几乎所有模型上都取得了接近全精度浮点（FP32）的准确率，显著优于传统的每张量缩放 INT8 量化。

表 3 展示了不同数据类型在不同模型上的精度。结果表明，采用微缩化量化的 INT8（MXINT8）在大多数模型上可以达到与浮点格式（FP32, BF16）相差 1% 以内的精度，实现了高精度整数计算。

表 5 | 不同配置加速器在 16nm 工艺下的后综合面积

表 5 则揭示了不同配置的面积开销。虽然 MXINT8 因需要额外的缩放因子存储和处理逻辑，其控制和寻址面积比 INT8 高 43%，但由于累加缓存和向量单元更小，总面积反而比 INT8 低 5.64%，比 E4M3 浮点格式低 11.6%。

2. 加速器规模缩放

表 4 | 基于 E4M3 的设计在不同规模下的运行时和利用率。

如表 4 所示，随着脉动阵列规模从 8×8 增大到 64×64，各模型的运行周期数几乎线性下降，并且硬件利用率（MAC Utilization）在大部分规模下都维持在 90% 以上，证明了 Voyager 调度器的有效性以及其架构良好的可扩展性。

6.3 与现有生成器的比较

表 6 | Voyager 与 Gemmini、NVDLA 的对比

表 6 将 Voyager 与两个知名开源生成器Gemmini 和NVDLA 在同等硬件配置（INT8, 相同 MAC 数量、频率）下进行了对比。

vs Gemmini：Voyager 运行时降低高达 61%，面积虽增加，但能效比显著提升。
vs NVDLA：Voyager 面积降低 35.9% ~ 56.5%，运行时降低 20.8% ~ 53.2%，全面胜出。

6.4 与手工优化设计的比较

表 7 | Voyager 与 Simba、4-bit VSQ 的对比

表 7 将 Voyager 与两个手工优化的加速器Simba（CNN）和VSQ（Transformer）进行对比。

vs Simba：在相似的 16nm INT8 配置下，Voyager 运行 ResNet-50 的周期数仅为 Simba 的 53%，硬件利用率高达 95%（Simba 为 48%）。
vs VSQ：在 BERT-Base 上，Voyager 在较老的 7nm 节点上达到了与 VSQ（5nm）相当的运行时间。关键区别在于，VSQ 仅加速部分算子（缺乏对重塑、残差连接、层归一化的支持），而 Voyager 加速了端到端的整个模型。

这些结果强有力地证明，Voyager 不仅在自动化程度上远超手工设计，在性能上也能与之媲美甚至超越。

七、相关工作

在 Voyager 之前，DNN 加速器自动化领域已有诸多探索，大致可分为两类：

7.1 架构建模与探索工具

Interstellar, Timeloop, MAESTRO, ZigZag：这些工具专注于为给定的硬件架构模板，寻找最优的数据流映射（调度），并使用分析模型评估性能、能耗。它们不生成实际硬件，但为 Voyager 的调度器提供了理论基础（Voyager 扩展了 Interstellar）。

7.2 硬件生成器

表 1 | Voyager 与先前 DNN 加速器生成器的特性比较。Voyager 在数据类型多样性（支持 Posit/自定义）、多精度、微缩化量化、软件支持（PyTorch）和 SoC 集成方面均领先于其他方案。

Gemmini (基于 Chisel): 高度可配置，支持脉动/向量架构，拥有 ONNX 软件栈。但在量化支持（尤其是微缩化）和调度灵活性上不及 Voyager。
NVDLA (工业级): 采用模块化设计，支持多种操作，但其硬件模板相对固定，软件栈基于较老的 Caffe 框架。
MAGNet (基于 HLS): 方法论与 Voyager 类似，但缺乏完整的软件编译器，需要手动进行模型映射。
MAERI: 以其灵活的可重构互连网络著称，支持多种数据流，但软件生态较为薄弱。
Tandem, DNNBuilder: 更侧重于特定场景（如非 GEMM 操作或 FPGA 流水线），通用性不足。

Voyager 的独特价值在于，它首次将广泛的硬件参数化、前沿的量化支持、高效的软硬件协同设计以及实用的设计空间探索工具整合到了一个统一的、端到端的框架中。

八、总结与展望

Voyager 代表了 DNN 加速器设计自动化领域的一次重要飞跃。它证明，通过精心设计的硬件模板、深度参数化、协同优化的编译器以及多层次评估工具， 完全可以自动化地生成在性能、面积和能效上不逊于甚至优于手工设计的高质量加速器。

其核心贡献可总结为：

一个高度灵活、基于 HLS 的加速器生成器，支持从数据类型、量化方案到计算/内存规模的全方位参数化。
首个支持微缩化量化硬件生成的框架，为超低精度推理提供了高效的硬件实现路径。
一个强大且与硬件协同设计的 PyTorch 编译器，实现了从模型到指令的自动化、优化映射。
一个端到端的探索与评估环境，使快速、全面的设计空间探索成为可能，极大地降低了 DNN 加速器的设计门槛。

未来，随着 DNN 模型继续向更大、更复杂的方向演进，以及新兴计算范式（如稀疏计算、动态网络）的出现，对硬件灵活性和自动化设计的需求只会越来越强。

Voyager 为此指明了方向：通过更高层次的抽象、更智能的协同优化算法， 将人类专家从繁琐的实现细节中解放出来，让他们能更专注于算法与架构的顶层创新。自动化、智能化的芯片设计时代，正在加速到来。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19573