hls4ml：开源FPGA AI编译器革命，微秒级延迟与极致资源效率，一键部署PyTorch/Keras/ONNX模型

关键词： FPGA 加速 、 _ 高层次综合 (HLS)、_ 模型量化、 硬件-软件协同设计 、低延迟推理、 开源编译器

只需几行 Python 代码——配合简单的配置字典，即可将训练好的神经网络模型一键部署到 FPGA，实现极致低延迟推理。hls4ml 会自动处理量化、并行策略和硬件映射，让你无需手动编写硬件代码。

近年来，深度学习模型在计算机视觉、自然语言处理、高能物理等领域的应用呈爆炸式增长。然而，随着模型规模不断扩大，对计算资源和功耗的要求也越来越高。

特别是在实时系统如自动驾驶、粒子对撞机触发系统中，CPU 和 GPU 往往难以满足严格的延迟约束。 FPGA 凭借其可重构、低延迟、高能效的特点，成为加速深度学习推理的理想平台。 但传统的 FPGA 开发流程复杂，需要硬件描述语言（如 Verilog/VHDL）和丰富的硬件知识，这大大限制了其普及。

hls4ml：开源FPGA AI编译器革命，微秒级延迟与极致资源效率，一键部署PyTorch/Keras/ONNX模型

表 1 | hls4ml 与同类工具对比。hls4ml 在支持多前端和多后端方面最为全面，且持续维护。该表全面对比了主流 FPGA 模型转换工具的核心能力，hls4ml 在多框架支持、多硬件厂商适配、任意量化支持三大关键维度均实现全覆盖，且支持 CNN、RNN、GNN 等多类架构，仅 Transformer 为部分支持（通过 HGQ 前端实现）。与商业工具（如 Vitis AI、Intel FPGA AI Suite）相比，hls4ml 的开源属性与持续维护特性更具灵活性；与其他研究项目（如 FINN、fpgaConvNet）相比，其跨厂商、多框架的兼容性优势显著。这一综合优势使 hls4ml 成为学术研究与工业部署的双重优选，尤其适合硬件-软件协同设计场景。

有没有一种工具，能够像 TensorFlow 或 PyTorch 那样，让我们用高级语言定义模型，然后自动生成高效的 FPGA 硬件实现？

答案是肯定的—— hls4ml 正是这样一个开源平台。

hls4ml 由 CERN、ETH Zurich、加州理工等机构的研究者联合开发，旨在将深度学习模型从主流框架（Keras、PyTorch、ONNX）自动转换为高层次综合（HLS）代码，进而部署到 FPGA 或 ASIC 上。

自 2018 年首次发布以来，hls4ml 已经发展成为一个功能强大、生态丰富的工具，广泛应用于高能物理、自动驾驶、生物医学、量子计算等领域。

本文将解读 hls4ml，了解其核心设计、创新点、硬件实现细节，以及如何利用它实现模型-硬件协同设计。

一、为什么需要 hls4ml？

在实时系统中，延迟往往是首要考虑因素。例如，在欧洲核子研究中心（CERN）的大型强子对撞机（LHC）实验中，探测器每秒产生约 100 TB 的数据，而触发系统必须在 10 微秒 内决定是否保留某个碰撞事件。传统的 CPU 处理无法满足这一要求，因此 FPGA 成为必然选择。

然而，传统 FPGA 开发面临两大痛点：

开发门槛高 ：需要掌握硬件描述语言，理解时序、流水线、资源约束等概念。
模型适配难 ：深度学习框架（如 PyTorch、TensorFlow）主要针对 CPU/GPU 优化，其模型无法直接映射到 FPGA。

hls4ml 的目标就是 桥接深度学习框架与 FPGA 硬件 ，让算法工程师无需成为硬件专家，也能享受 FPGA 的低延迟红利。

二、hls4ml 整体架构：模块化设计成就灵活性

hls4ml 的设计借鉴了现代编译器的思想，将整个流程分为前端、中间表示（IR）、优化器和后端四个层次，如图 1 所示。这种模块化设计使其能够灵活支持多种深度学习框架和硬件目标。

图 1 | hls4ml 模型转换与编译流程。前端将不同框架（Keras、PyTorch、ONNX）的模型解析为统一中间表示（IR），经过一系列优化器变换后，后端生成针对特定 HLS 编译器（Vitis、oneAPI、Catapult）的代码，最终合成为 FPGA 比特流或 ASIC 网表。

2.1 前端：支持主流深度学习框架

hls4ml 的前端负责将训练好的模型转换为内部表示。目前支持：

Keras 2/3：包括原生 Keras 以及量化库 QKeras、HGQ。
PyTorch：通过跟踪或脚本化模型转换为 IR。
ONNX/QONNX：支持开放神经网络交换格式，实现跨框架模型导入。
Brevitas：支持 PyTorch 的量化库。

对于每个框架，hls4ml 都提供一组层处理器（layer handlers），负责解析特定层（如 Conv2D、Dense）的参数和权重，并将其转换为统一的中间表示（IR）节点。所有权重都会被转换为 NumPy 数组，以消除框架特异性。

表 1 展示了各前端对不同神经网络层的支持情况。Keras 和 ONNX 前端支持最为全面，而 PyTorch 前端正在快速发展中。

表 1 | hls4ml 对不同深度学习框架与硬件后端的支持矩阵。☑ 表示支持，- 表示框架本身不支持该层。

2.2 中间表示（IR）与优化器

所有前端转换后的模型都统一为模型图（ModelGraph），其中包含节点（层）、边（数据流）和配置信息（如量化参数、并行度）。IR 的设计保证了与具体框架的解耦，使得后续优化和后端生成可以复用。

优化器（optimizers） 是一系列对 IR 进行变换的 pass，例如：
* 精度传播：根据输入/输出精度自动推导中间累加器的位宽，防止溢出。
* 算子融合：将连续的 Conv2D、BatchNorm、ReLU 等层合并为一个等效节点，减少流水线级数。
* 常量折叠：在编译时计算所有可确定的常量表达式，减少硬件开销。
* 模板实例化：根据用户配置（如策略、重用因子）将 IR 节点映射到具体的 HLS 模板。

这些优化器可以按需组合成优化流（optimizer flows），不同后端可以选择不同的优化流。

2.3 后端：多供应商 HLS 编译器支持

hls4ml 的后端负责将优化后的 IR 转换为特定高层次综合（HLS）编译器的代码，并生成配套的脚本和测试平台。目前支持的后端包括：
* AMD Vitis/Vivado HLS：最成熟的后端，支持所有策略（Latency、Resource、DA）和数据流类型。
* Intel oneAPI/Quartus：支持 io_parallel 和 io_stream 数据流，主要使用资源优化策略。
* Siemens Catapult HLS：面向 ASIC 设计，支持层次化综合，便于管理大规模设计。

每个后端都提供一套HLS 模板，这些是手动优化的 C++ 代码，实现了特定层的功能（如矩阵向量乘、激活函数）。模板中插入了 HLS pragma（如 #pragma HLS unroll、#pragma HLS pipeline）来指导综合工具实现并行和流水线。

表 2 展示了各后端对不同神经网络层的支持情况，可见核心层均已覆盖。

表 2 | 各硬件后端对不同神经网络层的支持矩阵。

三、硬件实现的核心：常数矩阵向量乘（CMVM）

神经网络的计算核心是矩阵向量乘。在 FPGA 中，权重在训练后固定为常数，因此该运算被称为常数矩阵向量乘（CMVM）。hls4ml 为 CMVM 提供了三种实现策略，分别面向不同的优化目标。

3.1 三种实现策略

Latency 策略：追求极致低延迟

将权重直接嵌入乘法器电路，循环完全展开，允许 HLS 编译器进行激进优化（如消除零乘、将常数乘法转换为移位加）。

重用因子（Reuse Factor, RF） 是 HLS 中用于权衡硬件资源与计算延迟的关键参数，其定义为：

RF = 总乘法次数 / 每周期并行乘法数

RF 反映了计算任务在时间维度上的“复用程度”：RF 越大，表示单位硬件单元被反复使用更多次，从而减少并行乘法器数量，节省 FPGA 资源；但代价是运算周期数增加，导致整体延迟上升。

Resource 策略：资源优先

将权重存储在 BRAM 中，通过显式状态机控制乘法的调度。如图 3a 所示，每周期从 BRAM 中读取 RF 个权重，送入 RF 个乘法器并行计算。这种策略适合大模型，因为循环不展开，资源可控。RF 直接决定了乘法器数量，从而平衡资源与吞吐量。

图 3 | (a) 两个二维向量外积在不同复用因子（RF）下的效果示意图；(b) hls4ml 中采用资源策略的常数矩阵-向量乘法（CMVM）示例。

分布式算术（DA）策略：消除乘法器

利用 DA4ML 库将 CMVM 转换为仅由加法器和移位寄存器组成的网络，如图 3b 右侧所示。DA 策略通过查表法实现乘加运算，特别适用于权重稀疏或低比特（如1-bit、2-bit）的模型。由于无需传统乘法器，它能完全规避 DSP 资源的使用，并显著减少 LUT 消耗。

但 DA 策略也有其局限性：
* 依赖预计算的查找表（LUT），要求内层循环（如点积计算）完全展开，导致硬件面积随向量长度线性增长。
* 不支持寄存器级流水，会丧失部分时序优化空间。

因此，DA 策略更适用于中等规模的矩阵，在大规模矩阵场景下易引发 LUT 资源爆炸或时序难以收敛，此时应优先考虑 Latency 或 Resource 策略。

图 3 | (a) 两个二维向量外积在不同复用因子（RF）下的效果示意图；(b) hls4ml 中采用资源策略的常数矩阵-向量乘法（CMVM）示例。

3.2 并行度控制：重用因子（RF）与并行因子（PF）

在 hls4ml 中，并行因子（Parallelization Factor, PF） 是用于调控层内跨通道并行度的关键参数。

以卷积层为例，其经 im2col 变换后被分解为多个独立的向量-矩阵乘法（CMVM），每个对应一个输出通道。PF 即指定 同一时刻并行执行的 CMVM 数量。

增大 PF 可显著提升吞吐率、降低单层延迟，但会线性增加 FPGA 上的逻辑资源（如 DSP 和 BRAM）占用；
反之，较小的 PF 节省资源，却以牺牲性能为代价。

PF 与 RF 独立配置：RF 控制单个 CMVM 内部的乘法复用，PF 控制多个 CMVM 之间的并行。这种分层并行机制使 hls4ml 能灵活适配不同硬件平台，在资源受限边缘设备与高性能加速卡间取得平衡。

3.3 激活函数的实现

对于 ReLU 等分段线性函数，hls4ml 直接使用比较器和多路选择器实现。

对于 tanh、sigmoid 等非线性函数，则采用 查找表（LUT），在编译时预先计算所有可能的输出值——根据输入精度。查找表可以存储在 BRAM 或 LUTRAM 中，确保单周期访问。经验表明，2048 条目的查找表已能提供足够精度，且资源开销极小。

3.4 数据流类型：io_parallel vs io_stream

hls4ml 支持两种层间数据传输方式：

io_parallel：层与层直接连线，输出立即作为下一层输入。适合小模型，延迟最低。
io_stream：通过 FIFO 缓冲层间数据。适合大模型，当上下游吞吐率不匹配时，FIFO 可以平滑数据流。hls4ml 还提供 FIFO 深度优化器，通过 RTL 仿真确定每个 FIFO 的最大占用，从而设置最小深度，避免资源浪费。

图 4 | (a) 采用并行数据传输（io_parallel）的多层感知器（MLP）计算示意图；(b) 采用流数据传输（io_stream）的卷积神经网络（CNN）计算示意图。该图展示了 hls4ml 两种核心的层间数据传输模式，io_parallel 直接将前层输出直连后层输入，无数据缓存，实现最大吞吐量与最低延迟，适合资源占用适中的小模型（如 MLP）；io_stream 在层间插入 FIFO 缓冲区，缓存前层输出数据，适配卷积层等启动间隔（II）大的层，避免数据阻塞，适合资源密集的 CNN 模型。两种模式均由用户配置，hls4ml 会根据模型规模自动优化 FIFO 深度，通过 RTL 协同仿真确定缓冲区最大占用量，在保证数据流畅传输的同时最小化片上存储资源消耗。

四、量化与协同设计工具

低精度量化是 FPGA 加速的关键。hls4ml 与多个量化训练库深度集成，并提供了硬件感知的优化工具。

4.1 QKeras：Keras 的量化扩展

QKeras 是 Google 开发的开源库，提供与 Keras 兼容的量化层（如 QDense、QConv2D）。它支持固定点整数、二元（Binary，二值）、2 的幂三种量化类型，并允许逐层指定位宽。AutoQKeras 可以自动搜索最优量化配置，满足给定的模型大小和精度约束。

图 2 | 单层多层感知器（含 softmax 输出层）在 QKeras（左）与 QONNX（右）中的表示对比。该图直观展现了 QKeras 与 QONNX 对量化模型的不同表示范式，QKeras 采用层级封装思路，将量化规则与计算层融合为 QDense 等量化层，简化用户建模流程；而 QONNX 遵循 ONNX 的细粒度算子设计，将量化、计算、激活解耦为独立节点，更适配硬件层的精准映射。hls4ml 对接两种表示时，会从 QKeras 中提取量化层的精度参数，从 QONNX 的量化算子中解析位宽与缩放因子，最终均转换为 IR 中带量化信息的计算节点，保证不同量化框架的模型都能实现硬件比特级精准部署。

4.2 HGQ：高粒度量化

HGQ（High-Granularity Quantization）是一种新颖的量化训练方法，由论文作者之一 Chang Sun 等人提出。其核心思想是 对每个权重和激活单独学习量化位宽，从而实现极细粒度的压缩。

在训练过程中，HGQ 引入可微分的量化器，并将资源消耗（以有效位操作数 EBOPs 为度量）作为正则项加入损失函数，通过超参数 β 控制精度与资源的权衡。

表 3 | hls4ml 与传统部署方案（ONNX Runtime、TensorRT）的性能对比，表头是模型的准确率、资源消耗、延迟及启动间隔（II）。本研究中所有资源数据均基于 AMD XCVU9P FPGA 的非上下文布局布线后测得；除标注 * 的设计采用 7 纳秒时钟周期外，其余所有设计的时钟周期均为 5 纳秒。所有设计均未使用块随机存取存储器（BRAM）。该对比凸显了 hls4ml 基于 FPGA 部署的能效优势，尽管其绝对延迟（2.8ms）高于 TensorRT 的 0.5ms，但功耗仅为 GPU 方案的 1/8，能效比达到 1250 Samples/J，是 GPU 的 6 倍。在边缘端低功耗场景下，hls4ml 方案的综合性价比显著优于传统方案，而 ONNX Runtime 虽部署简便，但延迟与能效均处于劣势，适合非实时性低功耗需求场景。

实验表明，HGQ 结合 hls4ml 的 Latency 策略，可以将 LUT 消耗降低 50%~95%，DSP 消耗降低 50%~100%，且几乎不损失精度，具体见表 3。

4.3 DA4ML：分布式算术优化

DA4ML 是一个独立的库，专门用于优化 CMVM 的加法器网络。它接收权重矩阵，通过启发式算法如公共子表达式消除，生成最优的移位加网络，从而完全消除乘法器。

对于 HGQ 训练的高稀疏模型，DA4ML 可以进一步减少约 1/3 的 LUT 消耗，且输出结果与定点实现完全一致（bit-exact）。

4.4 DSP/BRAM 感知剪枝

传统的剪枝通常以权重稀疏度为目标，但稀疏度并不直接对应 FPGA 资源节省。hls4ml 提供了一种 硬件感知剪枝 算法，将权重分组映射到具体的 DSP 或 BRAM 单元。

例如，一个 DSP 可能处理一组权重，如果该组所有权重被剪枝，则整个 DSP 可被移除。该算法将问题建模为背包问题，在给定资源预算下选择保留权重，最大化精度。在多个案例中，DSP 消耗减少了 2.2 倍到 12.2 倍。

4.5 符号回归与代理模型

hls4ml 还集成了符号回归（Symbolic Regression）接口，可以将黑盒函数（如物理过程的响应）表示为简洁的数学表达式（如 sin、exp 的组合），然后通过 LUT 高效实现。

此外，社区开发了 rule4ml 和 lui-GNN 等代理模型，可以快速预测 hls4ml 设计的资源消耗和延迟，避免长时间的综合等待，助力设计空间探索。

五、与现有工作的对比

FPGA 上的神经网络加速器可分为两大类： 覆盖层（overlay）架构 和 定制硬件生成器。

覆盖层（如 AMD Vitis AI、Intel FPGA AI Suite）实现固定的微架构，通过软件调度执行不同模型，灵活性高但效率略低。
定制硬件生成器（如 hls4ml、FINN、MASE）则针对每个模型生成专用数据流电路，效率极致但编译时间较长。

表 10 | hls4ml 与同类工具对比。hls4ml 在支持多前端和多后端方面最为全面，且持续维护。

表 10 对比了主流定制硬件生成工具，hls4ml 在以下方面具有独特优势：

多框架支持：支持 Keras、PyTorch、ONNX，而 FINN 只支持 Brevitas/QONNX，MASE 只支持 PyTorch。
多后端支持：同时支持 AMD、Intel、Siemens EDA，且可扩展至其他 HLS 工具。
量化灵活性：支持任意精度（不仅仅是 INT8 或 FP16），可与 QKeras、HGQ、Brevitas 等多种量化库配合。
活跃的社区：持续维护，定期举办教程和研讨会。

六、性能评估：从 Jet Tagger 到 MNIST

实验提供了多个基准测试的评估结果，涵盖高能物理、计算机视觉等任务。

6.1 高能物理 Jet Tagger

任务：将喷注（jet）分为 5 类，输入为 16 个高能特征。模型为多层感知机（MLP）。对比 QKeras 和 HGQ 训练，以及 Latency 和 DA 策略。

训练库	策略	精度	延迟(周期)	DSP	LUT	FF
QKeras	Latency	76.1%	10	13,042	70	N/A
HGQ	Latency	76.9%	5	55	13,303	2,374
HGQ	DA	76.9%	5	0	11,978	2,117

上表显示，HGQ 训练+DA 策略在几乎不损失精度的情况下，将 DSP 消耗降为 0，LUT 消耗也比 QKeras+Latency 降低一个数量级。Jet Tagger 在 AMD XCVU9P 上的资源与延迟展现出 HGQ+DA 完全消除 DSP，LUT 也显著减少，同时保持精度。

注：DA 策略之所以能实现零 DSP，是因为它利用 HGQ 训练出的稀疏、低位宽权重，将乘法运算替换为移位加操作，这里是通过 DA4ML 生成的加法器网络实现，从而完全避免了 DSP 的使用，同时保持输出结果与定点实现比特级一致。后续其他表格也遵循相同原理。

6.2 街景门牌号（SVHN）分类

任务：CNN 分类彩色数字图像。对比 QKeras 和 HGQ。

表 7 | 街景门牌号（SVHN）分类模型的准确率、资源占用及延迟表。该表以 SVHN 图像分类任务为基准，验证了 hls4ml 在计算机视觉场景的有效性。HGQ 量化模型在准确率接近 QKeras（93.9% vs 94%）的情况下，DSP 资源消耗降低 66.6%，LUT 资源节省 43.2%。DA 策略进一步实现 DSP 零占用，LUT 资源再降 23.2%，延迟稳定在 5.2 微秒左右。这种资源优化未以牺牲性能为代价，证明 hls4ml 在卷积神经网络部署中，能通过量化与算法协同，实现精度、资源、延迟的平衡，适用于边缘端视觉推理任务。

6.3 基于粒子的 Jet Tagger

任务：更复杂的任务，输入为每个喷注中最多 64 个粒子的 16 维特征，模型为 MLP-Mixer。

表 8 | 基于 HGQ 的粒子级喷注标记模型准确率、资源占用及延迟表。该表针对粒子级喷注标记这一复杂任务，凸显了 DA 策略的必要性。MLP-Mixer 架构的稀疏大核矩阵导致 Latency 策略无法完成时序收敛，而 DA 策略通过移位-加法运算重构矩阵乘法，成功实现部署。模型在 80.3%-81.4% 准确率区间内，LUT 资源占用仅 3.0%-7.3%，延迟低至 60-65 纳秒，充分利用了 FPGA 的细粒度并行特性。这一结果验证了 hls4ml 处理复杂架构与稀疏数据的能力，为高能物理等领域的原始数据实时处理提供了关键技术支撑。

6.4 MNIST 分类

任务：单层 MLP（784→128→10）。

表 9 | 基于 HGQ 的 MNIST 分类模型准确率、资源占用、延迟及启动间隔表。该表以 MNIST 手写数字分类任务为基准，验证了 DA 策略在稀疏模型中的优势。单层 MLP 的 768×128 稀疏核矩阵导致 Latency 策略合成失败，而 DA 策略通过算法重构避免了这一问题，实现了高效部署。模型在 97.0%-97.7% 高准确率下，延迟仅为 10 纳秒，LUT 资源占用最低仅 0.29%，FF 占用不足 0.06%，资源效率远超传统实现。这一结果证明 hls4ml 在处理稀疏模型时的鲁棒性，为低延迟、低资源需求的边缘端分类任务提供了轻量化解方案。

这些结果表明，hls4ml 结合 HGQ 和 DA4ML，能够协同优化硬件实现的关键维度：
* 计算效率、资源占用与精度保持：HGQ 通过混合精度量化策略，在保留关键权重高精度的同时，对冗余通道或激活值采用极低比特（如 2–4 bit）表示，天然适配稀疏模型的非均匀信息分布。
* 自动化编译与调度优化：DA4ML 则提供面向 FPGA 的自动化编译与调度优化，针对稀疏计算模式（如跳过零值乘加）定制数据流与内存层次。

二者与 hls4ml 的高层次综合流程深度集成，显著降低 LUT/BRAM 占用、提升吞吐量，并缩短时序关键路径。因此，该技术栈特别适用于边缘端部署——在资源严苛约束下，高效运行剪枝后稀疏模型或低位宽神经网络（如 BNN、Ternary Net），兼顾实时性与能效比。

七、广泛应用：从粒子物理到自动驾驶

hls4ml 自诞生以来，已在众多领域落地：

高能物理：CERN 的 CMS 和 ATLAS 实验使用 hls4ml 在 FPGA 上部署实时触发算法，如异常检测（CICADA）、μ 子动量分配。
自动驾驶：语义分割模型在 Xilinx ZCU102 上实现 5ms 延迟，资源占用<30%。
量子计算：用于量子比特的读出门控和误差校正。
生物医学：ECG 心律失常分类，功耗仅 1.655W。
网络安全：100Gbps 网络流量中的恶意软件检测，延迟 44ns。
航天：卫星上的实时地球观测数据处理。

八、挑战与未来展望

尽管 hls4ml 功能强大，但仍面临一些挑战：

前端/后端支持不均：某些层仅在特定前端或后端可用，用户需注意兼容性。
HLS 工具版本波动：不同版本的 HLS 编译器可能改变行为，导致 hls4ml 模板需要调整。
大模型支持：对于 Transformer 等超大模型，完全展开的数据流设计可能超出 FPGA 资源，需要结合分块、分层或利用 HBM。

未来发展方向包括：

方向	描述
支持更多前端：Flax/JAX	让框架能直接读入用 JAX/Flax 训练好的模型，无需额外转换格式，从而扩大对深度学习生态的支持范围。
集成 AMD AI Engine	直接利用 AMD Versal 芯片中专为 AI 加速设计的 AI Engine 硬件单元，相比仅使用通用 FPGA 逻辑资源，显著提升推理速度与能效。
分布式推理：多 FPGA 大模型部署	结合 Coyote shell 等通信与调度层，将大模型切分并部署至多片 FPGA 构成的集群，实现并行推理，有效应对单芯片容量与算力瓶颈。
强化协同设计：和 NAS 深度集成	实现神经架构搜索（NAS）与 FPGA 硬件部署的端到端打通：NAS 自动探索最优网络结构，框架同步生成匹配的硬件配置方案，达成算法与硬件的联合自动优化。

hls4ml 作为一个开源、灵活、模块化的深度学习加速平台，成功降低了 FPGA 部署的门槛，让研究人员和工程师能够快速将先进模型转化为低延迟、高能效的硬件实现。其创新的编译架构、丰富的量化工具集、以及对多供应商的支持，使其在学术界和工业界都获得了广泛认可。随着社区持续贡献，hls4ml 将在未来的实时智能系统中扮演更重要的角色。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/22687