突破极端边缘计算极限:AI引擎如何让科学推理性能飙升4倍,打破FPGA部署瓶颈
第1/5部分:极端边缘计算的性能困局与AI引擎的破局之道
在极端边缘科学实时推理场景中,系统面临着极为严苛的约束条件:必须实现微秒级的端到端延迟、维持数十兆赫兹的吞吐速率,并且所有模型权重都必须完整地驻留在芯片上,无法依赖外部存储器。
- 传统方案依赖FPGA可编程逻辑(PL)配合HLS4ML工具链构建空间数据流架构。这种设计仅能有效适配小型神经网络,一旦模型规模扩大,PL资源会迅速耗尽。算术单元被迫高频复用,直接导致推理性能急剧下滑。
- AI引擎(AIE)作为一种二维VLIW向量处理器阵列,凭借其高算力密度、本地大容量存储以及高频运行能力,成为突破这一瓶颈的关键技术路径。
然而,AIE与PL在底层架构、编程范式以及性能缩放特性上存在根本性差异。学术界至今缺乏一套系统化的方法论,来明确回答何时应该选择AIE、如何高效部署AIE的关键问题。
- Design Rules for Extreme-Edge Scientific Computing on AI Engines
- https://arxiv.org/pdf/2604.19106
- 全文约1万字,阅读时间约40分钟,播客版约22分钟
本文通过深入的架构表征与微基准测试,原创性地提出了延迟调整资源等价(LARE) 指标。该指标能够清晰界定PL与AIE的部署分界线,同时构建了空间级与API级两级分块数据流优化体系,精准量化了AIE列耗尽以及PL-AIE边界穿越所带来的延迟开销。
实测数据表明,经过优化的AIE部署方案,能够使变分自编码器(VAE)、量子比特读出、深度自编码器等模型轻松突破LHC触发系统40MHz的频率要求,性能最高提升达4倍,彻底打破了PL的部署极限。这为极端边缘科学场景下的神经网络落地,提供了一套完整且可落地的设计指南。
文章目录
- 一、引言
- 二、背景与研究动机
- 2.1 低延迟科学边缘计算
- 2.2 空间数据流框架
- 2.3 AIE优势与研究挑战
- 2.4 实验设置
- 三、架构表征与微基准测试
- 3.1 复用率与PL资源壁垒
- 3.2 设计空间差异与微基准测试
- 3.3 总结与讨论
- 四、AIE分块与数据流优化
- 4.1 通用矩阵乘法两级分块
- 4.2 架构约束
- 4.3 API级分块优化
- 4.4 空间分块优化
- 4.5 列耗尽的性能代价
- 4.6 架构边界穿越的代价
- 五、神经网络全量部署
- 六、相关工作
- 七、结论
- 参考文献
一、引言
科学研究领域正越来越依赖实时机器学习推理来处理高速传感器数据[1–4]。极端边缘工作负载运行在数十兆赫兹频段,对端到端延迟提出了微秒级的苛刻要求。要满足这一约束,所有模型权重必须完全驻留在片上,推理过程需采用小批量、小型神经网络[5]。因此,当前科研界主要将小型神经网络部署在FPGA可编程逻辑(PL)或专用集成电路(ASIC)上。
HLS4ML[6]是用于在FPGA PL或ASIC上实现机器学习模型的主流开源工具链。 它采用空间数据流架构:每一层都被实现为独立的数据通路,所有权重都存放在片上。这种空间数据流架构虽然能够实现低延迟、高吞吐,但其资源消耗极大——空间映射规模大致与神经网络的尺寸和深度成正比。当部署更大规模的机器学习模型时,PL资源会迅速被填满,迫使算术单元被大量复用,进而导致性能急剧下降,如图1所示。
图1 基于AIE的设计规则可让更大规模的神经网络满足并超越LHC触发系统40MHz的吞吐要求[21],[22]。PL足以支撑Jet-tagger[23]、τ事例筛选[24]等小型网络,而变分自编码器(VAE)[25]、量子比特读出[26]、深度自编码器[21]等大型网络,只有借助本文设计规则在AIE上部署才能满足性能要求。
此外,更高的复用率会使HLS优化问题变得更加复杂,常常导致综合工具运行时间过长,甚至运行失败。
AI引擎(AIE)是一种高性能二维VLIW向量处理器阵列,专为数字信号处理和机器学习工作负载的确定性、高吞吐执行而设计[7]。 AIE为极端边缘科学计算提供了极具潜力的替代方案,目前已有大量科研人员考虑将其用于下一代科研应用[8],[9]。AIE 采用空间编程模型,神经网络内核会被映射到VLIW向量处理器上 ,并通过数据流图完成互联[10]。尽管AIE的编程模型正在持续完善[11]–[13],但其成熟度仍远不如PL的编程工具。
虽然AIE和PL共存于同一款Versal FPGA片上系统中[14],[15],但二者是完全不同的架构,各自拥有独特的性能与资源缩放特性。这让极端边缘科研领域难以看清部署AIE的实际价值。不仅如此, 现有的AIE编程模型主要针对高吞吐、批处理的通用矩阵乘法(GEMM)计算做了优化[16]–[20],而非面向该领域所需的低延迟、事件驱动、权重片上推理。
正因如此,科研界缺少一套系统性方法,来判断极端边缘神经网络何时 该部署在AIE上、如何 部署在AIE上而非PL(可编程逻辑)上。本文的目标正是填补这一空白。本文的核心贡献包括:
- 对PL和AIE在真实资源与性能预算下的工作负载进行建模与微基准测试,覆盖PL并行度与复用的设计空间;
- 提出延迟调整资源等价(LARE) 指标,作为AIE与PL方案选型的决策边界,同时可判断AIE是否存在资源利用率不足的问题。
- 针对在AIE上实现低延迟科学工作负载,设计分块与数据流优化方案;通过实验基准测试提炼出空间级与API级分块的实用设计规则,同时量化列耗尽、PL-AIE边界穿越开销等架构瓶颈,为高效低延迟部署提供指导。
- 完成极端边缘科学计算端到端神经网络的部署与评估。如图1所示,借助本文提出的分块与数据流设计规则,原本在PL上无法满足LHC触发系统40MHz吞吐要求的大型神经网络,现在可以在AIE上成功部署。
图1 基于AIE的设计规则可让更大规模的神经网络满足并超越LHC触发系统40MHz的吞吐要求[21],[22]。PL足以支撑Jet-tagger[23]、τ事例筛选[24]等小型网络,而变分自编码器(VAE)[25]、量子比特读出[26]、深度自编码器[21]等大型网络,只有借助本文设计规则在AIE上部署才能满足性能要求。
本文后续结构安排如下:
二、背景与研究动机
本章旨在阐述极端边缘科学计算所面临的特殊需求与当前主流工具,回顾面向高能物理应用的神经网络在FPGA上实现空间数据流的方案,分析此类方法在大型网络中的可扩展性瓶颈,并最终提出核心研究挑战,同时探讨AIE架构的潜在优势。
2.1 低延迟科学边缘计算
针对科学应用的实时边缘推理任务,其对延迟和带宽的要求极为苛刻。欧洲核子研究中心(CERN)的大型强子对撞机(LHC)是这一场景的典型代表:该设备通过接近光速的质子对撞来探索基础物理,其探测器系统每秒会产生数百太字节的数据量[1],[27]–[29],用以记录各种对撞事件。
然而,其中仅有极小部分数据具备科学研究价值,全量存储无论在成本还是容量上均不可行。因此,系统必须在传感器近端完成数据的实时筛选,仅保留高价值数据,这要求系统具备极低的延迟与极高的吞吐能力,以匹配40MHz的对撞速率[21],[22]。
FPGA平台已被证明非常适合处理此类低延迟工作负载。但在上述严格的延迟与吞吐约束下,从片外加载权重所需的带宽,往往会超出片上DRAM接口的承载能力[4],[5],[14],[30],[31]。因此,所有权重必须预先加载,并在整个推理过程中固定存放在片上存储器中。
2.2 空间数据流框架
HLS4ML[6]、FINN[32]等空间数据流框架,极大地简化了神经网络在FPGA上的部署流程。其中,HLS4ML专为科研领域设计,即使不具备深厚的FPGA或硬件设计经验,用户也能完成机器学习模型的硬件部署。然而,空间数据流架构会为每一层网络单独分配硬件资源,导致资源占用量大致与神经网络的参数量和深度呈线性增长关系。
设计人员可通过调节复用率(即同一算术单元上时分复用的运算次数),以性能换取资源节省。但对于大型网络,必然需要更高的复用率,这将导致延迟显著增加。当网络规模超过某一临界点后,即便大幅提高复用率,EDA工具也无法满足资源约束,这一瓶颈严重限制了可在PL上部署的神经网络规模。
2.3 AIE优势与研究挑战
AIE架构为解决可扩展性难题提供了可行的路径。例如,Versal VEK280开发板[14]集成了304个基于AIE-ML架构的计算单元,每个单元配备64KB本地内存。
单个AIE单元每周期可完成256次int8乘加运算(MAC),等效于58个DSP58单元[14]。作为固化ASIC,AIE最高可运行在1GHz,约为本文实验中PL端312.5MHz时钟频率的3.2倍,性能潜力巨大。
要实现高性能,必须精心规划数据移动与计算模式。
- PL架构支持完全自定义的数据通路和互联结构,现代EDA工具可实现细粒度的布局布线,使数据能按需精准传输,开销极低。
- 与之不同,AIE是松耦合的VLIW处理器,拥有固定的存储层级。设计人员需要显式编程每个AIE单元的工作负载,并同时管理单元内部及阵列之间的数据流。低效的数据移动会引发DMA停滞、内存竞争和额外的缓冲延迟,最终导致计算核心利用率不足。这些问题必须严格规避,以防止性能下降。
极端边缘科学计算领域已通过应用研究与新兴部署工具链,开始探索将AIE作为PL替代方案的可行性[8],[9],[13]。其中,AIE4ML[13]实现了面向量化神经网络的端到端部署工具链,支持空间分块与布局。
但由于PL和AIE在架构与编程模型上存在本质差异,要使AIE在该领域高效落地,必须解决两个核心问题:
- 何时部署:PL资源拥堵迫使HLS4ML在性能与资源之间进行权衡,而AIE的设计空间与缩放特性完全不同,很难直接判断其何时应替代PL。在何种工作负载规模与资源预算下,部署AIE会比PL更具优势?
- 如何部署:极端边缘科学应用拥有独特的工作负载与数据流模式。AIE提供了多种空间级、API级分块与数据移动方案,应如何针对这一领域设计有效的数据流优化策略?
本文围绕上述问题展开研究。
- 第三章通过架构表征与微基准测试,回答何时部署的问题;
- 第四章提出数据流优化方法,回答如何部署极端边缘科学神经网络的问题。
2.4 实验设置
所有实验均在搭载AIE-ML阵列的AMD-Xilinx Versal VEK280开发板上完成。AIE性能通过周期精确的硬件仿真进行测量;为保证对比公平,PL基准方案也在同款VEK280器件上实现。本文对HLS4ML框架进行了扩展,使其支持Versal平台,性能与资源利用率数据由AMD Xilinx Vitis和Vivado 2025.2综合实现工具提供。
三、架构表征与微基准测试
本章旨在解答何时使用AIE更具优势这一问题。
- 首先,深入探究HLS4ML的设计空间,定位其可扩展性失效的节点,明确大型神经网络部署的限制;
- 随后,对比HLS4ML与AIE的设计空间差异,展示微基准测试结果;
- 最后,从这些微基准测试中提取跨域性能与资源趋势,同时为第四章的数据流设计提供依据。
3.1 复用率与PL资源壁垒
HLS4ML中最核心的设计参数是用户定义的复用率(rf),用于调整层数据通路的并行度。HLS4ML会将PyTorch、TensorFlow或Keras定义的机器学习模型转换为HLS工程,复用率会改变流水线启动间隔(II)与循环展开HLS指令,引导HLS工具在并行度与资源节省之间进行权衡,从而形成庞大的性能-资源设计空间。逻辑综合与物理综合由后端EDA工具自动完成。
对于小型神经网络,HLS4ML可以实现全并行化,因此性能优异。但随着工作负载规模增大,为使设计适配PL的可用资源,就必须提高复用率,对算术单元进行时分复用。更高的复用率相当于用性能换取资源节省,同时会降低吞吐率。
除了层内复用率,HLS4ML还提供两种更上层的策略:延迟优化与资源优化。
- 延迟优化策略优先保证并行度,会大量占用查找表(LUT)和触发器(FF);
- 资源优化策略则更为保守,在资源紧张时会更多地使用块RAM(BRAM)等资源。
图2 HLS4ML性能可扩展性。性能以间隔衡量,即稳态执行时批次输出的时间间隔,间隔越小代表吞吐越高、性能越好。资源充足时,HLS4ML可对设计做全并行化,因此间隔基本保持不变,资源占用随工作负载规模增大而上升;资源受限时,算术单元必须按复用率进行时分复用,进而导致吞吐降低、间隔增大。图中同时给出AIE实现方案作为参考。
本文构建了由密集层组成的合成工作负载,测试HLS4ML的性能随工作负载规模的缩放规律(见图2)。当工作负载规模增大时,两种策略的输出间隔(稳态执行时批次输出的时间间隔)都会上升,当设计在rf=1时无法适配PL资源后,间隔的上升尤为明显。
- 在延迟优化策略下,间隔会急剧上升,资源也会快速耗尽;
- 在资源优化策略下,间隔增长更为平稳,更适合需要在资源与延迟之间进行权衡的中型神经网络。
这一趋势也确定了后续与AIE对比时,选择资源优化策略作为PL基准。在HLS4ML的两种策略中,资源优化策略的可扩展性与资源利用率更优,对比结果更具参考意义。
- 如果在小工作负载下,PL在资源优化策略下的性能已优于AIE,那么延迟优化策略会让这一优势更加明显;
- 反之,当AIE在更大规模下超越资源优化策略时,它必然也会超越更早触及PL资源壁垒的延迟优化策略。
图中同时给出了朴素映射的 AIE 方案作为参照:该方案将每一层网络映射至一个 AIE 单元。在此情况下,AIE 资源依然充裕,启动间隔由层的尺寸决定,而非层数。这些结果共同表明,HLS4ML 在小规模场景下表现非常出色,但其可扩展性上限较低,这也为大型工作负载采用 AIE 提供了充足理由。
3.2 设计空间差异与微基准测试
直接对比 PL 与 AIE 的设计空间具有相当高的难度。第 3.1 节已经指出,在 HLS4ML 框架下,PL 的性能与资源权衡主要受层内复用率控制;而 AIE 则采用了向量处理器编程模型与确定性片上网络,其性能主要取决于工作负载的维度,以及空间级与 API 级的分块策略。要开展有意义的对比,必须考虑 PL 独有的复用率参数,而这一参数在 AIE 中并不存在。
为了实现两个领域的公平比较,并提炼出具有普适性的结论,本文将单个密集层映射到一个 AIE 单元,以此为基础进行微基准测试。微基准测试的核心目标,是分离出能够迁移到更大规模设计中的层级设计趋势。由于复用率是按层配置的,同一层在不同复用率下的表现,实际上等效于该层在不同规模神经网络的资源预算下所呈现的状态。神经网络规模越大,单层可用的预算就越少,复用率也相应越高。从这个视角来看,单层的资源与性能权衡曲线,能够反映出该层在不同规模网络中的具体表现。
对于 AIE 微基准测试而言,在给定层形状并将工作负载映射到单个单元时,其性能是固定的。这使我们能够直接将 AIE 的性能与 PL 的资源–性能权衡曲线进行对比。本文将 HLS4ML 匹配 AIE 性能所需的最小 PL 资源 定义为延迟调整资源等价(LARE) ,其具体计算方法如算法 1 所示。
算法 1 密集层(nin, nout)的 LARE 指标计算
本文针对不同的密集层形状,重复执行了复用率扫描与 LARE 计算实验,结果如图 3 所示。
图 3 资源–延迟权衡微基准测试。每条彩色曲线对应 PL 上的一种层形状,黑点表示能够匹配 AIE 性能的 PL 资源值(即 LARE)。蓝色区域代表 PL 资源紧张,此时 AIE 表现更优;红色区域表示 PL 资源充足,此时 PL 方案更佳。每条彩色曲线都代表一种层形状在 PL 上的资源–延迟权衡,曲线上每个点对应不同的复用率;复用率越高(左上区域),资源占用越少,但启动间隔越大(性能越差)。彩色曲线上的黑点,标记了对应层的 AIE 性能(纵轴)与 LARE 值(横轴)。蓝色区域是 PL 资源拥堵区,此时 PL 部署需要高复用率,而 AIE 能够实现更低的延迟;红色区域是 PL 资源冗余区,此时空间数据流 PL 方案的延迟优于 AIE。
LARE 指标具备两大核心价值:
- 决策边界 :如果单层可用的 PL 资源超过其 LARE 值,那么 PL 方案就能够匹配甚至超越 AIE 的性能;反之,资源受限的 PL 会因复用效率低下而导致性能下降。
- 效率指示器 :LARE 还能够反映 AIE 方案对计算单元资源的利用效率。 LARE 偏低意味着只需很少的 PL 预算就能达到同等性能,这表明当前 AIE 实现的效率不高,需要进一步优化。
3.3 总结与讨论
当模型规模较小且 PL 资源充足时,HLS4ML 表现出色;但当 HLS4ML 面临严重的资源约束时,其性能会大幅下降,此时 AIE 便成为更优的选择。
PL 与 AIE 的选型分界,并不仅仅由模型规模决定,还与层形状以及单层可用的资源预算密切相关 。微基准测试与 LARE 指标,为 PL 与 AIE 的选型提供了实用的决策依据。
图 3 资源–延迟权衡微基准测试。每条彩色曲线对应 PL 上的一种层形状,黑点表示能够匹配 AIE 性能的 PL 资源值(即 LARE)。蓝色区域代表 PL 资源紧张,此时 AIE 表现更优;红色区域表示 PL 资源充足,此时 PL 方案更佳。每条彩色曲线都代表一种层形状在 PL 上的资源–延迟权衡,曲线上每个点对应不同的复用率;复用率越高(左上区域),资源占用越少,但启动间隔越大(性能越差)。彩色曲线上的黑点,标记了对应层的 AIE 性能(纵轴)与 LARE 值(横轴)。蓝色区域是 PL 资源拥堵区,此时 PL 部署需要高复用率,而 AIE 能够实现更低的延迟;红色区域是 PL 资源冗余区,此时空间数据流 PL 方案的延迟优于 AIE。
图 3 还显示,LARE 的趋势并非线性,甚至不是单调的,这说明 AIE 的利用率高度依赖于工作负载的尺寸与形状 。本章仅采用了一层一单元的朴素映射,无论层形状如何都按此方式部署。这一结果也为第四章通过分块与数据流优化来提升 AIE 性能 提供了直接动机。
unsetunset四、AIE 分块与数据流优化unsetunset
在 AIE 上部署低延迟神经网络,需要在架构约束与分块参数构成的复杂设计空间中寻求平衡。第三章观察到朴素映射存在资源利用率不足的问题, ** 这促使本文探索将工作负载分发到更多 AIE 计算单元的策略,通过合理利用并行性来提升性能。 本章基于 AIE4ML 框架[13],详细阐述科学神经网络中核心计算负载 GEMM 的实现方案。**
为了满足微秒级的延迟约束,本文遵循极端边缘科学推理的通用惯例:采用最小批量大小(AIE 中 int8 数据类型为 8),所有模型权重固定并完全驻留在片上。这一思路与传统大型神经网络的 GEMM 实现不同,后者依赖高吞吐批处理与权重片外访问,无需面对如此严苛的性能约束。本文聚焦于两级分块:
- 跨计算单元的空间分块 (并行化每个 GEMM 工作负载)
- 单个计算单元内的 API 级分块 (高效利用向量处理单元)
本文对 AIE 的架构约束进行了表征,基于实验基准测试提出了 API 级与空间分块的设计规则,同时量化了 PL-AIE 边界穿越的延迟成本,并给出了混合部署的设计规则。
4.1 通用矩阵乘法两级分块
AI 引擎中标准的 M、K、N 维 GEMM 工作负载,采用如算法 2 所示的两级分块架构实现[13]。
算法 2 通用矩阵乘法两级分块。空间级(单元数,尺寸):;API 级(单元数,尺寸):
- 空间级 :全局工作负载被划分到 AIE 阵列的 个计算单元,K、N 维度分别拆分为 列、 行计算单元,每个单元分到尺寸为 的空间分块工作负载。
- API 级 :在单个计算单元内部,工作负载会在 API 级进一步拆分为尺寸为 的小块,该参数必须是 aie::mmul API 支持的合法组合;API 会按 、、 次循环调用,完成空间分块的处理。
这一架构定义了全局工作负载维度到物理硬件的映射方式,是后续性能分析与设计规则的基础。
4.2 架构约束
极端边缘科学工作负载通常会将数据直接送入 PL[3],[26],要在 AI 引擎中处理这些数据,必须通过可编程逻辑 IO(PLIO)接口进行流式传输。在 312.5MHz 的典型时钟频率下,128 位 PLIO 可提供 5GB/s 的带宽。
VEK280 的 AIE 阵列包含 38 列、8 行计算单元,当前版本的 AIE4ML 工具链为降低布线开销,仅开放 31 列(索引 7 至 37),因为 PLIO 从该区域开始部署。在 AIE 阵列内部,每个计算单元包含一个标量处理器和一个向量单元,每周期可完成 256 次 int8×int8 乘加运算,针对定点算术做了优化。AMD 提供 aie::mmul<m,k,n,dtype,dtype> 高级 API 调用,用于对向量单元进行矩阵乘法编程[33],[34]。
数据移动方面,每个计算单元配备:
- 1 个 32 位输入、1 个 32 位流式传输端口;
- 512 位级联总线,支持部分和从西向东传输并完成累加;
- 64KB 本地数据内存,在 1GHz 频率下,每周期可通过 2 个 256 位加载单元、1 个 256 位存储单元访问,本地读写带宽分别达到 64GB/s、32GB/s。
4.3 API 级分块优化
结合硬件约束,本文首先研究单个计算单元内部的 GEMM 分解,确定 API 级分块的最优尺寸 S 与数量 R。
为最大化向量单元利用率,计算单元内部的 GEMM 会手动做 2×2×2 展开,有效分块尺寸为基础 API 分块尺寸的 2 倍。
图 4 展示了批量大小为 8 时,单个计算单元内 GEMM 工作负载在 API 级分块下的性能表现。横轴的双列组代表不同工作负载尺寸,每组内计算量相同,但不对称性存在差异(Q_K 更大或 Q_N 更大);纵轴则对应 int8×int8 合法 aie::mmul API 的尺寸。其中, 与 两种配置性能最优,且当 Q_N 更大时,空间分块的性能更为稳定。
该图是对批量大小为 8、单个计算单元内工作负载 的尺寸与形状进行的全面基准测试,统计了所有合法 API 尺寸下的性能(单位:GOP/s)。实验结果显示, 与 在所有工作负载尺寸下均表现最佳;二者性能相近,但 的粒度更优,经过 2 倍展开后,其最小 K 维度为 16,优于 的 32。基于此,本文选择 进行后续分析,并总结出以下设计规则:
设计规则 1 :在极端边缘科学计算场景中,默认的 API 分块尺寸 能够在兼顾最优综合性能的同时,提供更精细的粒度。
图 4 还进一步验证了工作负载不对称性的影响。当固定单个计算单元的工作负载运算量时, 的性能相比 最高可提升 2 倍,这一优势会延续至全局工作负载。其根本原因在于,输出维度更大时,宽向量处理单元与输出累加器的利用率更高。
设计规则 2 :对于运算量固定的工作负载,计算单元的性能会随形状变化;在 API 级分块时,应优先保障 N 维度(输出通道),而非 K 维度(输入归约)。
4.4 空间分块优化
在确定高效的 API 形状后,本文进一步研究如何将工作负载映射到 AIE 阵列,并将分析重心转向阵列级并行性及其对性能的影响。空间分块会将全局工作负载拆分为 尺寸的子工作负载,并分配给 列、行的计算单元(如算法 2 所示)。
算法 2 展示了通用矩阵乘法的两级分块策略。空间级(单元数,尺寸):;API 级(单元数,尺寸):
专用级联总线负责在计算单元之间传输部分和,子工作负载按自西向东的顺序分配,以最小化数据移动开销。
图 5 展示了全局工作负载 在不同空间分块下的延迟测试结果。API 分块尺寸固定为 ,箭头表示行/列计算单元数量翻倍后的延迟变化率。
图 5 针对全局尺寸为 的工作负载,在不同列、行计算单元数量下进行了空间分块基准测试,API 尺寸固定为 。在负斜率对角线(i+j=常数)上,单层计算单元数量(并行度 )保持不变。实验发现,当并行度 固定时,将更多计算单元分配给 K 维度的配置,其延迟低于将更多单元分配给 N 维度的配置,这与 API 级优先减小 的趋势一致。
设计规则 3 :在 AIE 阵列上,单层的空间分块应优先进行列向扩展,而行向分块需谨慎使用。
其次,并行度的提升通常会带来性能增益(符合预期),但性能随计算单元数量的增长速度远慢于并行度的增长速度。每个箭头显示了将行或列方向的计算单元数量翻倍后,性能的变化幅度,这表明空间分块存在明显的收益递减效应。
设计规则 4 :空间分块的收益会递减。单个计算单元的工作负载 即可实现不错的性能;若进一步进行空间分块,性能提升不足 15%,但计算单元数量却需要翻倍。
空间并行度的提升并非总能单调地提升性能。在测试的设计空间中,空间分块 时性能达到峰值,继续分块反而会导致性能下降。
设计规则 5 :增加计算单元数量不一定能提升性能。为避免利用率不足,单个单元的最小工作负载应设为 。
4.5 列耗尽的性能代价
前述结论表明列向扩展更具优势,但这一趋势无法在有限的阵列宽度上无限延续。
本文测试了优先列向分块超出器件物理宽度后的性能影响。此时,后续层必须部署在带区[13](初始层上方的额外计算单元行,见图 6),这一架构变化会带来可测量的性能损失。
图 6 展示了 AIE 可用列耗尽后的延迟影响。实验使用 8 层密集模型,单层 12 个计算单元,仅调整空间分块的不对称性。结果表明,列向扩展仅在单带区列数限制内提升性能,当层跨带区部署后,会因资源竞争引入延迟惩罚。
为量化列耗尽的影响,本文在图 6 中进行了空间分块不对称性遍历测试。实验采用固定模型:8 层、输入输出特征数为 192、批量大小为 8,该配置能在 AIE 硬件约束内最大化测试点数量。数据类型固定为 int8×int8,API 尺寸为 ;为抵消 2 倍手动展开的影响,并避免空间分块不均带来的延迟波动,单个计算单元的最小工作负载设为 。当前 AIE4ML 实现将可用阵列宽度限制为 31 列,但本分析不受此限制约束,放宽限制后结论依然成立,仅临界列数会发生变化。
本实验中,单层总并行度固定为 ,仅调整空间分块的不对称性(列数/行数):
- :总列数需求为 16(8 层 ×2 列),在 31 列限制内,所有层都部署在单个带区。
- :总列数需求为 24,仍能适配单个带区,性能优于 2 列配置,符合 4.4 节得出的趋势。
- :总列数需求为 32,超出 31 列限制,AIE4ML 会将 7 层放在第一个带区,第 8 层放在上方第二个带区。这会迫使不同带区的层共享同一组存储单元,引发资源竞争与性能劣化。
- :总列数需求为 48,5 层放在第一个带区,3 层放在第二个带区,延迟进一步劣化。
这些结果说明,尽管列向空间分块整体更优,但一旦模型超出阵列物理宽度,这一优势就会消失。
设计规则 6 :列耗尽的代价极高。模型实现应尽可能沿 AIE 列向进行分块(最大化 ),但不能超出列数限制,并且只使用单个带区。
4.6 架构边界穿越的代价
Versal 器件将 PL 与 AIE 阵列集成在同一裸片上,支持异构混合部署。
- AIE 阵列非常适合 GEMM 这类规则、可向量化的密集工作负载,与它的向量编程模型和矩阵乘法支持高度匹配[13],[18],[34];
- 相比之下,PL 依然是实现自定义数据通路、位操作逻辑、快速数据重排等辅助功能的灵活选择,可使用 RTL 或 HLS 开发[35]–[37]。近期的 AIE–PL 混合设计也会用 PL 实现非线性激活函数[38]。
设计人员可以将非线性或其他辅助阶段放在 PL,将 GEMM 主导的阶段放在 AIE。对于这类异构方案,一个核心问题是 PL–AIE 边界穿越的延迟惩罚,本文直接对这一开销进行了量化。
为此,本文构建了 16 层密集模型,数据类型为 int8×int8、批量大小为 8,输入输出维度固定。为保证所有配置的计算开销一致,每个方案都严谨地使用 8 层 PL、8 层 AIE,首尾层固定放在 PL。由于当前版本的 HLS4ML 与 AIE4ML 不原生支持模型自动划分,本文手动从两种流程中提取密集层实现,组合成混合流水线[6],[13]。AIE 层按一层一单元映射,PL 层复用率设为 1。随后将 PL-AIE 边界穿越次数从 2 到 14、步长 2 进行遍历,总延迟由 HLS 综合给出的 PL 延迟与周期精确 AIE 仿真给出的延迟合并得到。
图 7 展示了 AIE-PL 边界穿越的延迟开销。所有实验使用相同的 16 层密集模型,均为 8 层 AIE + 8 层 PL,仅改变边界穿越次数。线性拟合斜率显示,每次穿越带来约 3.9% 的延迟开销。
图 7 的结果呈现出极强的线性趋势( ),说明本实验有效隔离了边界穿越的延迟惩罚。 对于所有工作负载,每多一次穿越,相对于仅输入输出两次穿越的基线,延迟开销约为 3.9%。这一量化结果为考虑 PL-AIE 划分的设计人员提供了可直接使用的惩罚项。
设计规则 7 :PL-AIE 混合流水线中,每多一次边界穿越,相对于两次穿越基线会增加约 3.9% 的延迟。 只有当将某一阶段放在优选域带来的计算收益超过这一开销时,异构划分才值得做。
五、神经网络全量部署
本文针对真实极端边缘科学工作负载,解答两个实际问题:
- 当 PL 方案因资源拥堵被迫高复用后,AIE 能否成为有竞争力的替代方案?
- 应用第四章的设计规则,能带来多大的性能提升?
图 1 展示了基于 AIE 的设计规则,使得更大规模的神经网络能够满足并超越 LHC 触发系统 40MHz 的吞吐量要求[21],[22]。PL 足以支持像 Jet-tagger[23] 和 τ 事例筛选[24] 这样的小型网络,但对于变分自编码器(VAE)[25]、量子比特读出[26]、深度自编码器[21]等大型网络,只有遵循本文提出的设计规则部署在 AIE 上,才能达到性能标准。
本文评估了三种 PL 方案无法满足性能目标的工作负载(见图 1):
- LHC 上的变分自编码器(VAE)[25]
- 多量子比特读出鉴别器[26]
- MLPerf Tiny 基准测试中的大型自编码器[39]
所有模型均采用 8 比特量化,结果汇总于表 1,性能以每秒百万次推理(MHz)为单位衡量。
表 1 神经网络全量部署结果
实验发现,朴素的 AIE 实现(一层一单元)与高复用率的 PL 方案性能相近,而应用本文设计规则后,性能最高可提升 4 倍。PL 方案无法满足极端边缘场景下 40MHz 的对撞频率要求[22],但优化后的 AIE 方案能够轻松超越这一指标。
六、相关工作
近期已有多项研究探索将 AIE 与 AMD Versal ACAP 平台用于大型机器学习工作负载。
| 工作 | 描述 |
|---|---|
| CHARM[16],[17] | 提出分析模型并开展设计空间探索,平衡不同尺寸加速器的工作负载,支持 Transformer 层的可变尺寸矩阵乘法。 |
| MaxEva[18] | 探索 AIE 单元之间的硬连线数据通路,以更高资源占用和更低灵活性为代价换取更高性能。 |
| XVDPU[40] | 提出面向高性能的实现方法,用 AIE 单元完成卷积计算,PL 负责缓冲、数据移动、调度等辅助功能。 |
| SPARTA[41] | 基于多级中间表示(MLIR)编译器框架,支持空间加速器开发,用于水平扩散气象模板计算。 |
| Brown[19] | 探索在 Versal 平台上结构化 AIE 内核的最优方案及其与 PL 的接口,用于加速大气模拟,性能优于传统 AMD Alveo U280 平台。 |
| Perryman 等人[42] | 评估将 Versal 架构用于航天领域下一代边缘计算,主要面向卷积神经网络与快速傅里叶变换,验证了其在加速与能效上的优势。 |
| Chen 等人[20] | 利用 Versal 平台的异构性优化图神经网络推理,在 PL 上部署自定义稀疏原语硬件模块,在 AIE 上高效计算密集原语。 |
| Yang 等人[43] | 提出分析模型与代码生成方法,在 Versal ACAP 异构可重构平台上自动化优化任意精度整数乘法,融合使用 PL、AIE 与 CPU。 |
| Zhang 等人[44] | 为 Versal 平台提出定制化抽象 Transformer 加速器家族,可高效映射到目标 Transformer 架构。 |
现有研究大多聚焦于为大规模矩阵乘法优化 AIE。据本文所知,这是第一项针对极端边缘科学计算工作负载的严苛低延迟、高性能需求,研究 AIE 设计规则的工作。
七、结论
本文解答了极端边缘科学计算神经网络何时、如何部署在 AIE 上 的问题。小型网络在 PL 上通过 HLS4ML 部署依然高效,但大型网络的资源缩放特性会迫使复用率提升、性能下降。
- 本文提出 LARE 指标,量化 AIE 部署更具优势的场景;
- 随后提炼出空间级与 API 级分块的设计规则,分析工作负载不对称性、过度分块收益递减、AIE 列耗尽、PL-AIE 边界穿越对性能的影响。
- 最后,如开头图 1 与表 1 所示,本文设计规则让原本在 PL 上无法满足严苛极端边缘性能指标的大型真实模型,在 AIE 上实现了指标超越,进一步拓展了全片上推理的应用边界。
参考文献
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32376

