可重构AI加速器控制面崩坏前夜:MINISA如何用Virtual Neuron将指令停顿从96.9%压到忽略不计

这篇论文最值得反复咀嚼的地方,并非它又设计了一套“更短的指令”,而是它明确指出:可重构加速器开始支持越来越丰富的映射和数据布局切换时,真正首先崩溃的往往不是算力,而是控制面。

过去几年,AI 加速器的主线叙事一直是“让矩阵乘法更快”,但随着工作负载日益多样化,这条叙事已经不再完整。今天的推理系统不仅要服务 CNN 和 Transformer,还要处理同样可以降解为矩阵与向量算子的同态加密 (FHE)、零知识证明 (ZKP)、非规则张量算子,以及形状在层间和请求间不断变化的在线推理场景。对于这类负载而言,固定数据流的阵列极易陷入两大困境:一是填充浪费,二是布局不匹配。而可重构加速器之所以存在,正是为了规避这两个陷阱。

问题在于,可重构并非没有代价。

  • 硬件越灵活,控制就越精细;
  • 控制越精细,程序留下的“痕迹”就越长;
  • 痕迹越长,片外指令抓取、片上指令缓存、地址发生器配置、交换网络控制就越是容易喧宾夺主,吞噬掉本应用于计算的数据搬运与存储预算。
  • MINISA: Minimal Instruction Set Architecture for Next-gen Reconfigurable Inference Accelerator
  • https://arxiv.org/abs/2603.20623
  • 代码仓库:https://github.com/maeri-project/FEATHER/tree/main/minisa
  • 9000 字,阅读 35 分钟,播客 22 分钟

MINISA 这篇论文的切入点非常犀利:既然 FEATHER 这类架构已经将“数据流与布局协同切换”下沉到了硬件层,那么软件与 ISA 层就不应再固守“逐开关、逐周期、逐 PE 微配置”的原始模式。作者要解决的不是“再挤一点控制编码”,而是重新寻找抽象的边界。

这也是本文的核心线索:

  • 为何 Virtual Neuron (VN) 会成为论文所称“最粗但不丢灵活性、最细但不再浪费控制成本”的编程粒度;
  • 为何 FEATHER 需要演进为 FEATHER+;
  • 以及为何作者能将本会吞噬 96.9% 微指令周期的指令抓取停顿,压缩到几乎可以忽略,并在 16×256 配置上实现高达 31.6× 的端到端加速。更重要的是,这种收益并非仅针对某个 AI 模型,而是覆盖了 GPT-OSS、FHE、ZKP 这三类结构迥异的 GEMM 负载。

图 10:端到端加速比与停顿分析。当阵列规模较小(≤64PE)时,微指令的取指开销可以被计算过程隐藏,加速比接近 1;阵列扩大后,基线的取指停顿从 75.3% 攀升至 96.9%,完全主导性能瓶颈。MINISA 通过 VN 抽象彻底消除了取指停顿,加速比随阵列规模线性提升,在 16×256 阵列上达到峰值 31.6×。结论:VN 粒度抽象精准解决了大规模可重构加速器的指令瓶颈,阵列规模越大,优化收益越显著。

MINISA 最重要的贡献,不是“把指令数减少了一些”,而是将可重构硬件的编程视角,从逐开关编程提升到了与硬件原子计算粒度对齐的 VN 级编程。这个抽象一旦选对,控制开销就不再会随着阵列规模的扩大而失控。

图 12:指令开销降低效果。在 16×256 阵列下,MINISA 相比微指令,将指令字节数的几何平均值降低了 2×10^5 倍。展示了不同阵列规模下的指令数据比,微指令的指令体积可达数据的 100 倍,而 MINISA 将其降至可忽略的水平。指令体积的极致压缩使得片外指令取指不再是关键路径,彻底消除了大规模阵列的指令瓶颈。数据覆盖 FHE、ZKP、LLM 三类负载,证明了优化的普适性。

本文目录

  • 一、问题定义:可重构架构为何会先死于控制开销
  • 二、从 FEATHER 到 FEATHER+:论文先修的并非 ISA,而是硬件摩擦
  • 三、为何是 Virtual Neuron:这篇论文真正的抽象创新
  • 四、MINISA 的指令到底“最小”在哪里
    • 4.1 三条布局指令:不是描述数据本身,而是描述 VN 如何落入 buffer
    • 4.2 ExecuteMapping:将“哪块 WVN 放到哪个 PE”浓缩成 6 个参数
    • 4.3 ExecuteStreaming:将时间维复用也收进同一个抽象
    • 4.4 执行模型:MINISA 的 trace 为何可以很短
  • 五、编译器视角:论文真正落地的是“mapping-first, layout-second”
    • 5.1 FEATHER+ mapper 的七步流程
    • 5.2 多层场景为何是这篇论文不可忽略的一部分
  • 六、实验结果:这篇论文到底证明了什么
    • 6.1 实验设置并不狭窄
    • 6.2 控制面收益:论文最扎实的结果
    • 6.3 与 GPU、TPU 的比较该如何理解
    • 6.4 不规则形状是论文真正的主战场
    • 6.5 扩展性与资源开销
  • 七、图表与公式:用几张图把论文方法真正讲透
  • 八、相关工作:MINISA 在学术坐标系中的位置
    • 8.1 固定功能 AI ASIC 这条线
    • 8.2 可重构数据流加速器这条线
    • 8.3 HE 与 ZKP 这类新型工作负载
  • 九、结论与展望
    • 9.1 结论总结
    • 9.2 进阶分析
    • 9.3 未来工作

一、问题定义:可重构架构为何会先死于控制开销

论文最锋利的观察是:现代可重构 AI 加速器的首要瓶颈,很多时候并非计算阵列本身,而是为了表达灵活性所付出的控制代价。

图 1:工作负载示意图。卷积通过 im2col 转换为矩阵乘法。采用颜色编码:蓝色/绿色/紫色/红色分别表示输入 (I)、权重 (W)、部分和 (psum, P)、输出 (O)。该图用扩展 einsum 符号统一建模矩阵乘法与卷积,例如矩阵乘法可写作,其中上标定义形状,下标定义索引。该图是论文适配多元 AI 负载的核心抽象。颜色编码清晰区分张量类型,简化数据流与布局理解。此表示法覆盖 LLM、FHE、ZKP 等负载,为 FEATHER+ 的映射设计提供统一标准,也是 MINISA 以虚拟神经元 (VN) 为粒度编程的负载描述基础,保障架构对跨域负载的兼容性。

可重构AI加速器控制面崩坏前夜:MINISA如何用Virtual Neuron将指令停顿从96.9%压到忽略不计(二)

作者的论证起点并不复杂。现代AI推理负载高度依赖矩阵乘法与卷积运算,而卷积可通过im2col方法转化为矩阵乘法,因此绝大多数工作负载都能用扩展的einsum形式统一表达。对于任意算子而言,真正决定执行效率的核心要素有两个:

  1. 映射:即各维度如何分块、排序、并行化与归约。
  2. 布局:即张量在片上缓冲区中以何种细粒度顺序进行组织。

传统固定数据流架构的局限性在于映射空间过于狭窄;而FEATHER这类可重构架构的价值,恰恰在于它将数据流选择与布局切换能力一同纳入了运行时的功能集合。论文反复强调的“协同切换”(co-switching),本质上是指“同一工作负载,能够针对不同形状,在执行前后动态切换数据流与片上布局”。

然而,这种能力也带来了一个副作用:如果每次切换都需要显式描述交换网络如何旋转、buffer地址如何生成、每个PE接收哪块数据,那么程序将膨胀为庞大的微指令流。微指令流越大,问题至少体现在三个层面:

  1. 片外指令抓取的流量上升,直接与数据流量争抢带宽。
  2. 片上需要更大的指令存储空间,否则无法支撑大tile。
  3. tile被控制状态挤小后,算术强度下降,端到端吞吐量也随之被反噬。

这篇论文最值得关注的一点是,作者并未将控制开销视为“实现细节”,而是将其提升为决定可重构架构能否真正扩展的一级问题。文中给出的FEATHER+数据非常直观:

  • 在较小阵列上,微指令的消耗尚能被计算过程掩盖;
  • 但一旦阵列扩大到4×64、8×128、16×256,指令抓取停顿会迅速攀升,最高可达96.9%。

表I:FEATHER 4×4执行矩阵乘法时的指令取指显式停顿。数据显示,随着阵列规模扩大,指令取指停顿急剧上升,16×256阵列的停顿比例高达96.9%。细粒度微控制在大规模阵列下会产生海量配置指令,片外取指成为性能瓶颈。该数据是提出MINISA的核心动机,证明必须提升控制抽象粒度,才能消除可重构加速器的控制开销瓶颈。

换句话说,硬件阵列越大,如果ISA抽象保持不变,系统就越可能从“算力受限”退化为“控制受限”。

这里有一个容易被忽视但极为关键的判断:作者并非否定可重构,而是在强调“可重构必须匹配更高层次的控制抽象”。如果仅在硬件层实现了重排、切换、多数据流支持,而在软件层仍沿用逐交换器控制的方式,那么硬件的灵活性最终会以控制灾难的形式收场。

二、从FEATHER到FEATHER+:论文先修的并非ISA,而是硬件摩擦

MINISA并非凭空诞生的指令集,它建立在FEATHER+这一温和但关键的微架构修补之上。

原始FEATHER的优势在于能以较低成本实现数据流与布局的协同切换;其短板则主要体现在两个方面:

  1. 某些操作数,尤其是权重,需要在执行前离线重排到理想布局。
  2. 这种重排会在片上缓冲区中引入冗余复制,而在动态负载下,这种假设又很难成立。

这对卷积类静态场景尚可接受,但对于LLM推理这类输入和权重都可能随运行时变化的场景就不太友好了。因此,论文提出了FEATHER+,且改动并不激进,主要集中在三点:

  1. 将streaming/stationary buffer到NEST的逐列点对点连接,替换为独立的all-to-all分发网络。
  2. 简化streaming buffer的banking机制,因为既然已实现全互连分发,buffer无需再承担复杂的跨bank异构访问责任。
  3. 增加从output buffer到stationary buffer的链路,使前一层输出能更自然地作为后一层输入继续静置或流过阵列。

这三点调整的意义,容易被误读为“工程补丁”,但实际上在论文逻辑中扮演了重要的铺垫角色。

  • 首先,全互连分发网络消除了“必须在片上显式复制同一份数据,才能供多列使用”的旧约束。这意味着,布局切换不再以复制数据为前提,而可以通过分发语义来实现。
  • 其次,输入和权重都可以在运行时作为stationary tensor使用,这意味着编译器与ISA无需再预设“哪一边总是预先已知”。
  • 最后,层间输出可以直接转入下一层所需角色,减少了额外的布局回写与重组织。

图2:FEATHER+的编程视角,该可重构加速器可协同切换映射与布局。此图呈现了FEATHER+的硬件核心:PE阵列、全互连交叉开关、BIRRD归约网络与分级缓冲。相比FEATHER,新增的全互连分发网络消除了片上数据冗余,简化了流缓冲并增加了输出-固定缓冲链路。这些硬件改进支持动态输入/权重,适配LLM运行时数据可变场景,为MINISA的低开销控制提供了硬件支撑,同时仅带来极小的面积开销。

图2对应原论文的FEATHER+ programmer view。真正值得关注的,不仅是NEST、BIRRD、Streaming Buffer、Stationary Buffer、Output Buffer这些部件,而是它们之间职责的重新划分:布局灵活性不再依赖片上复制,而是依赖分发与映射抽象。

没有FEATHER+,MINISA只能解决“指令太长”的表面问题;有了FEATHER+,MINISA才真正具备处理动态输入、动态权重和避免片上冗余复制的现实意义。

论文对FEATHER+的定位也很克制。它并非一套全新加速器,而是对FEATHER的“小幅增强”。这种克制很重要,因为它说明论文的卖点并非“用重写硬件换性能”,而是“在较小硬件增量下,把原本浪费在控制上的成本追回来”。这一点也直接反映在后文的面积与功耗评估中:FEATHER+相比FEATHER的资源开销最高仅增加到约7%量级。

三、为什么是Virtual Neuron:这篇论文真正的抽象创新

论文最核心的概念并非某条指令,而是VN:它把软件编程粒度与硬件原子计算粒度对齐了。

FEATHER+的PE阵列尺寸为 ,其中 是每个PE内部可执行的元素点积长度(即每个PE的局部寄存器数量), 是阵列的列数。每个PE的硬件原子计算粒度为 元素点积。

其中,FEATHER+的每个PE都执行一个 元素点积,这作为硬件层最小的乘加原子。作者由此提出VN,即Virtual Neuron:将操作数沿归约维切成长度不超过 的片段,使一个VN恰好对应硬件一个PE可消费的最小dot-product片段。

这件事表面看像是一个命名动作,实则是整篇论文的转折点。作者的判断是:

  1. 如果抽象比VN更粗,就会丢失跨PE的灵活映射能力。
  2. 如果抽象比VN更细,就会重新落入逐元素、逐交换器控制的高开销地带。

于是,VN成了那个“刚刚好”的边界:既保留了硬件全部有用的可重构空间,又不再为无意义的控制细节付费。

论文进一步为不同操作数定义了不同类型的VN:

  1. 输入VN,即 。
  2. 权重VN,即 。
  3. 部分和VN,即 。
  4. 输出VN,即 。

其中,输入和权重都沿归约维切块。以矩阵乘法为例,输入的归约维是 ,权重的归约维是 。切分之后,编译器面对的就不再是元素级映射,而是二维VN阵列之间的组合关系。

这时,FEATHER+原本的两条映射约束会发生很有意思的变化。原始约束之一是“一个PE内部寄存器里的所有数据都必须参与同一个点积”;而当软件抽象已经直接以 元dot-product为原子时,这条约束等于被VN抽象自动吞掉了。剩下真正需要ISA和编译器面对的,只剩另一条:同一列PE必须复用同一个流经该列的输入VN。

这就是论文中那句非常关键的话:在VN视角下,原本复杂的FEATHER+映射空间被重新因式分解了。控制不再围绕“每个开关怎么动”,而是围绕“哪些VN被摆到哪些列和哪些时间步上”展开。

图 8:FEATHER+ 的编译流程。该编译流程将 ACT 生态与 FEATHER+ 映射器整合,首先通过图级分析定位具有布局灵活性的区域,随后执行“先映射、后布局”的搜索策略,将最优解转化为 MINISA 指令。这一流程适配了多层神经网络及 DAG 结构,确保了层间布局的兼容性,使得 MINISA 指令能够自动生成,显著降低了编程门槛,同时最大化了硬件利用率。

从架构研究的视角来看,这种抽象的深层价值远超“编码更短”的表象。一旦选对了抽象层级,后续的 ISA 设计、映射空间参数化、编译器搜索、层间布局兼容性以及指令位宽上限的估算,都会变得系统化和有序。MINISA 真正的成就在于,它将硬件的可重构性成功转化为一个编译器友好的、离散的决策空间。

四、MINISA 的指令究竟“最小”在何处

这篇论文所定义的“最小”,并非指功能上的匮乏,而是指仅保留了那些对表达硬件灵活性而言绝对必要的控制维度。

表 II:MINISA 指令概览。MINISA 仅依靠 8 条指令即可完成配置、访存和计算触发,这些指令被划分为布局设置、映射执行、访存和激活四大类。布局指令用于配置 VN 在片上的布局,映射指令则负责指定数据流并触发计算。这套精简的指令集将控制开销压缩至极低水平,同时完整保留了 FEATHER+ 的全部映射与布局灵活性,是实现低开销控制的核心。

论文给出的 MINISA 指令集共包含 8 条指令,但若按控制职责来划分,可以拆解为两个层次:

  1. 核心的 VN 级配置与执行指令:
    • SetIVNLayout
    • SetWVNLayout
    • SetOVNLayout
    • ExecuteMapping
    • ExecuteStreaming
  2. 配套的数据与算子指令:
    • Load
    • Write
    • Activation

其中,真正承担起“将可重构能力转化为抽象接口”这一重任的,是前五条指令。

4.1 三条布局指令:并非描述数据本身,而是描述 VN 如何落入 Buffer

SetIVNLayout、SetWVNLayout、SetOVNLayout 这三条指令的设计思路高度统一:它们不再于元素层级描述布局,而是将一个逻辑上的二维张量映射到物理的片上 buffer 中。其中, 代表片上 buffer 的深度(行数), 代表其宽度(列数)。Buffer 的总容量为 个元素,可以存储 个 VN。

论文将这个布局描述过程分解为三个步骤:

  1. 选择分块因子。
  2. 选择分块后各个秩(rank)的顺序。
  3. 将生成的 VN 序列折叠进物理 buffer。

以权重矩阵 为例,作者首先将两个秩分为两级:

并将其表示为索引形式:

由于 VN 已经固定地吞噬了归约秩(reduction rank)最内层的粒度,因此真正需要编码的自由度,仅剩下剩余 3 个秩的排列顺序。以权重 VN 为例,其原始形状 经过分块和 VN 固定后,剩余的 3 个自由秩为 (高维归约)、(低维非归约)、(高维非归约)。它们的排列顺序共有 种,因此仅需 3 bit 即可完成编码。

也正因为只有 3 个秩,合法的排列顺序仅有 种,所以论文仅用 3 bit 就编码了所有有效的排列。 这是一个非常巧妙的结果:当抽象层级提升到 VN 后,布局空间并未消失,而是恰好被压缩到了一个极小但完备的离散集合中。

表 III:跨 VN 布局的统一 3 位排列编码。 使用 3 位编码即可覆盖 6 种合法的秩排列,满足了输入、权重、输出 VN 的布局顺序需求。这种 3 位编码极尽精简,降低了硬件解码与指令存储的开销。统一的编码规则使得编译器能快速生成布局指令,同时确保硬件支持所有合法布局,实现了灵活性与开销的完美平衡。

4.2 ExecuteMapping:将“哪块 WVN 放置到哪个 PE”浓缩为 6 个参数

ExecuteMapping 用于描述某个计算瓦片(compute tile)中驻留张量(stationary tensor)在 PE 上的放置方式。以 WO-S 数据流为例,它使用的参数是:

并定义如下:

这里最值得关注的并非公式本身,而是其背后的“参数化映射”思想。作者并未枚举每个 PE 的数据归属,而是通过起始位置、分组粒度、列内周期以及跨行跨列步长,将一个瓦片的映射空间压缩为一个固定长度的描述符。换言之,MINISA 不再显式地控制“每一条导线”,而是控制“一个结构化的映射模式”。

4.3 ExecuteStreaming:将时间维度的复用也纳入同一抽象

ExecuteStreaming 复用了 ExecuteMapping 的部分参数,并额外引入了:

在 WO-S 模式下,它描述了每一列 PE 在不同时间步会注入哪个输入 VN:

这里的思想同样非常强大:空间的映射与时间的流动并非两套独立的控制系统,而是共享同一组结构信息。 ExecuteMapping 决定了“列上驻留了什么”,而 ExecuteStreaming 决定了“时间上流过了什么”。两者配对后,才能真正触发片上活动。

4.4 执行模型:MINISA 的 Trace 为何可以如此简短

论文给出的单层典型 trace(指令序列)非常简洁:

这意味着,布局配置被前置并尽可能复用,后续仅需对一系列子瓦片发射映射与流式执行指令。对于连续的层,当前层的输出布局还可以复用为下一层的输入布局,从而有机会跳过部分显式的布局设置。这种 trace 结构,是 MINISA 能将控制流开销压至极小的根本原因之一。

图 6:MINISA 布局规范与 SetWVNLayout 示例(K=8,N=8,AH=AW=4 ⇒ KL0=AH)。该图对比了元素级布局与 VN 级布局,展示了 SetWVNLayout 如何将权重按 VN 分块存入固定缓冲区的逻辑。VN 将缩减维度固定为 AH,简化了地址生成,消除了细粒度控制冗余。该示例验证了 MINISA 通过“分块因子 + 排列”的紧凑描述,能够完整覆盖硬件的合法布局空间,实现了布局控制的极致精简。

图 6 对应论文中的布局案例图。它旨在说明的并非“如何手工计算地址”,而是 VN 粒度的布局足以覆盖原本 FEATHER 的元素级布局空间,且编码方式更为紧凑。

MINISA 的“最小”并非删除功能,而是将原本隐含在海量微控制中的规律提取为少数几个结构化参数。它压缩的是描述方式,而非硬件的表达能力。

五、编译器视角:论文真正落地的是“先映射,后布局”策略

如果说 VN 是抽象层面的关键一步,那么编译流程上的关键一步,就是作者将联合搜索拆解为“先映射,后布局”两个阶段。

可重构加速器最容易让编译器陷入组合爆炸的困境:映射空间巨大,布局空间也同样巨大,两者交织后几乎无法进行有效搜索。MINISA 对此给出的解决方案,并非暴力地进行联合最优求解,而是采用分层的收缩策略。

第一层,先固定映射候选。 论文认为,映射空间虽然庞大,但主要由三类旋钮控制:
1. 计算瓦片尺寸(compute tile size)
2. VN 组的形成方式
3. 列复制因子

第二层,在映射固定后,仅搜索布局顺序与 level-0 分块因子,并检查其可行性。 这样一来,联合搜索就从“任意映射 × 任意布局”的爆炸性空间,收缩为“少量映射候选 × 小规模布局合法性判定”的可控空间。

5.1 FEATHER+ 映射器的七步流程

论文将映射器的过程清晰地拆解为 7 个步骤:

  1. 将工作负载降级为 VN。
  2. 对工作负载进行瓦片划分。
  3. 形成 VN 组。
  4. 沿着流式输入方向,将 VN 组合并为组合 VN 组。
  5. 决定列复制策略。
  6. 搜索满足 buffer 容量、bank 冲突、port 冲突约束的合法布局。
  7. 生成最终的 MINISA trace。

表 VII:符号化矩阵乘法的 FEATHER+ 映射器搜索旋钮。 搜索旋钮覆盖了数据流、分块、布局、复制因子四大类,并通过启发式剪枝加速搜索。在 16×16 阵列下,对 50 种负载的搜索可在 17 分钟内完成,在搜索空间与效率之间取得了平衡。这种旋钮设计使得映射器能够自动找到最优方案,无需人工干预,从而大幅降低了 MINISA 的使用门槛。

这个流程的精妙之处在于,它并没有将编译器视为一个“独立于硬件的抽象搜索器”,而是提前将 FEATHER+ 的架构约束直接嵌入到搜索空间的定义之中。例如:

  1. VN group 的定义围绕“一个 NEST 列最多能容纳多少个 stationary VN”来展开。
  2. combined VN group 则清晰地揭示了 stationary tensor 在时间维度上的复用关系。
  3. duplication factor 则专门用于处理当列数与 group 数无法整除时,如何保证硬件利用率的问题。

图 9:映射器中 “VN 组”“组合”“复制” 的示意图, 展示 VN 组划分、跨输入组合、列复制三个映射旋钮,是映射器核心设计。VN 组是列级最小调度单元,组合挖掘数据复用,复制适配物理列数。三个旋钮压缩搜索空间,让编译器快速找到无冲突的映射布局,是 MINISA 高效编译、快速适配负载的关键。

图 9 对应 mapper illustration,它详细阐述了论文中三个至关重要的搜索对象:VN group、combination 和 duplication。理解了这三个概念,基本上就能明白 MINISA 为何能在保留可重构性的同时,避免让编译器陷入搜索爆炸的困境。

5.2 多层场景为何是本文不可忽视的关键

论文并未将问题局限于单一的 GEMM kernel。它明确指出,在处理多层工作负载时,层与层之间必须满足布局兼容性:第 层的输出布局必须能够直接作为第 层的输入布局。这意味着,mapper 不仅要为每一层寻找局部最优解,更需要在跨层组合中,选择总延迟最小的方案。

这一点至关重要,因为它表明作者并未将 MINISA 视为一项“单核 benchmark 技术”,而是试图将其整合进真实的编译管线中。事实上,文中确实将 FEATHER+ mapper 集成到了 ACT ecosystem 中,使得图级分析能够先识别出 layout-flexible region,再逐层调用 mapper 来完成 layout-constrained mapping search。

从工程落地的角度来看,这是全文中最容易被低估的贡献之一。许多硬件论文在单层 kernel 上表现亮眼,但一旦进入图编译阶段,就会因布局一致性问题而导致收益大打折扣。MINISA 至少在编译模型层面,已经将这个问题考虑得非常周全。

unsetunset六、实验结果:这篇论文究竟证明了什么unsetunset

这篇论文最具说服力之处,在于它并非仅仅展示“指令数量减少了”,而是将控制压缩、停顿消除、端到端延迟、跨平台对比以及面积开销串联成了一条完整的证据链。

6.1 实验设置并不狭隘

论文对来自三个领域的 50 个 GEMM 工作负载进行了评估:

  1. GPT-OSS 20B 推理
  2. FHE bootstrapping 与 NTT
  3. ZKP 中的 NTT

阵列配置的扫描范围覆盖了:

此外,研究团队还使用 RTL 模型验证了时序的正确性,并利用经 RTL 校验过的 analytical model 将结果扩展到大规模配置。这使得最终结论既不完全依赖于纯分析模型,也不局限于小规模的 RTL 验证。

6.2 控制面收益:论文最扎实的成果

文中最为直接的结果体现在以下三个方面。

  1. 在所有 50 个工作负载上,微指令方案的 instruction-to-data ratio 最高可达到数据量的约 100 倍量级。
  2. 在 配置下,MINISA 使得片外指令流量的几何平均下降达到了 倍量级,而个别 workload 的最大降幅甚至达到了 倍。
  3. 对应的端到端速度提升,最高可达 31.6 倍。

更关键的是,这 31.6 倍的提升并非源于“计算速度更快”,而是通过将原本会阻塞整个系统的 instruction-fetch stall 基本清零来实现的。论文中的图 10 非常直白地说明了这一点:在大阵列下,baseline 会逐渐变成 instruction-bound,而 MINISA 则让这一瓶颈彻底消失。

图 10:端到端加速比与停顿分析。当阵列规模扩展至 16×256 时,MINISA 实现最高 31.6 倍加速。 对比微指令与 MINISA 的性能,小规模阵列微指令开销可被计算隐藏,大规模阵列微指令取指停顿达 96.9%。MINISA 消除所有取指停顿,加速比随阵列扩大显著提升。结果证明 VN 抽象有效解决可重构加速器的控制开销瓶颈,规模越大优化效果越显著。

图 10 对应论文的核心结果图,从中可以看出:

  • 在小规模阵列上,MINISA 相对于 baseline 几乎没有提速,因为原本就不存在明显的控制瓶颈;
  • 然而,一旦阵列规模增大,收益便会迅速拉开。这恰恰证明了作者瞄准的是“扩展性危机”,而非微小的常数优化。

6.3 如何理解与 GPU、TPU 的比较

论文将 FEATHER+ 与 RTX 5090、TPUv6e-8 进行了对比,并在大致相同的 575W 功耗预算下报告了以下结果:

  1. 相对于 RTX 5090 的几何平均加速为 23.7 倍
  2. 相对于 TPUv6e 的几何平均加速为 7.8 倍

图 11:GPU(RTX 5090)、TPUv6e-8(256×256×8)与 FEATHER+((16×256)×64)的延迟对比。 同功耗预算下,FEATHER + 相对 GPU、TPU 分别实现 23.7 倍、7.8 倍几何平均加速。商用硬件固定计算粒度易因张量形状不规则导致利用率暴跌,而 FEATHER + 以 VN 为粒度适配任意形状,维持高利用率,验证可重构架构 + MINISA 在多元不规则负载的绝对优势。

图 11 对应论文中的 GPU/TPU 对比图。这组结果很容易引起误解,因此需要谨慎解读。论文的核心论点并非“FEATHER+ 普遍碾压 GPU/TPU”,而是:

  1. 这里比较的是高度不规则、形状多变且常常无法对齐固定 tensor-core 粒度的 GEMM。
  2. GPU/TPU 的最小执行粒度更刚性,当形状无法被整除时,会出现明显的利用率损失。
  3. FEATHER+ 的重构粒度更细,因此在处理这些负载时更容易维持高利用率。

也就是说,这组对比主要证明了“柔性粒度在不规则 GEMM 上的价值”,而非宣称 FEATHER+ 在所有主流 AI 工作负载上都优于 GPU/TPU。论文本身也承认,当工作负载与 TPU 的粒度高度对齐时,FEATHER+ 仍可能因为重配置开销而慢约 30%。 这一点恰恰增强了论文的可信度,因为作者并未试图掩盖可重构本身所固有的成本。

6.4 不规则形状是论文真正的主战场

作者特别强调,FEATHER+ 在不规则工作负载下仍能维持较高的计算利用率。例如,在某些 FHE 和 ZKP kernel 中,即便形状无法整除硬件粒度,FEATHER+ 仍能维持超过 60% 的平均计算利用率;而刚性阵列则可能因为 padding 与粒度不匹配,导致利用率跌至极低水平。

图 13:典型负载的延迟分解与计算利用率。 分解计算、访存、指令取指等周期,展示 FEATHER + 在多阵列规格下,对规则 / 不规则负载均维持 60% 以上利用率。商用硬件在不规则形状下利用率仅 3%,而 MINISA 的低开销重构让硬件灵活适配,同时控制开销可忽略,平衡了架构灵活性与执行效率。

图 13 对应论文中的延迟拆解与利用率图。它比单纯的总体时间对比包含了更多信息,因为它说明 FEATHER+ 的收益主要来自于“让更多的 PE 真正被利用起来”,而不是依赖于某个特定路径的偶然优化。

6.5 扩展性与资源开销

论文最后还完成了两项非常必要的收尾工作:

  1. 扩展性分析:增加 基本对应增加独立的并行列,吞吐量近似线性提升;增加 则会提升并行度,但同时也提高了充分利用所需的最小工作负载粒度。
  2. 资源开销分析:FEATHER+ 相对于 FEATHER 的额外面积和功耗开销最高约为 7%。

这两项结果共同说明,作者的方案并非“用不可承受的硬件代价来换取控制压缩”,而是在较为温和的硬件增量下,换来了原本根本无法运行的大规模可重构控制路径。

表 VI:基于 TSMC 28nm 工艺,对 FEATHER (F) 与 FEATHER+ (F+) 进行布局布线后的面积 (μm²) 及功耗 (mW) 对比。与原始版本相比,FEATHER+ 的面积与功耗增幅分别不超过 7.58% 和 7.06%。全互连分发网络所带来的额外开销,已被计算与存储资源所有效分摊。凭借极低的硬件成本,换取了动态数据支持能力并消除了数据冗余,这充分表明 FEATHER+ 的架构优化拥有极高的性价比,为 MINISA 构筑了一个低成本的硬件平台。

实验中最关键的结论是:MINISA 的性能提升呈现出显著的“规模依赖性”。阵列尺寸越大、形状越不规则、控制面越容易成为性能瓶颈,那么基于虚拟神经元(VN)的指令集架构所带来的收益就越为突出。

七、图表与公式:深度解析论文核心方法

论文的核心方法可概括为:首先,利用 FEATHER+ 消除动态场景下的片上数据复制与预重排假设;其次,通过 VN 抽象,将映射与布局控制提升至结构化的参数空间。

图 1:工作负载示意图。卷积操作通过 im2col 方法转换为矩阵乘法。图中采用颜色编码进行区分:蓝色/绿色/紫色/红色分别代表输入 (I)、权重 (W)、部分和 (psum, P) 以及输出 (O)。该图运用扩展的 einsum 符号,对矩阵乘法与卷积进行了统一建模,这是论文适配多样化 AI 负载的核心抽象。颜色编码清晰地标识了不同的张量类型,简化了对数据流与布局的理解。这种表示法能够覆盖 LLM、FHE、ZKP 等各类负载,为 FEATHER+ 的映射设计提供了统一标准,同时也是 MINISA 以虚拟神经元(VN)为粒度进行编程的负载描述基础,确保了架构对跨领域负载的兼容性。

此图对应于论文中的 workload illustration。其最大价值在于,将卷积与矩阵乘法统一纳入扩展的 einsum 视角之下。论文后续关于 ISA、映射和布局的讨论,均建立在此统一表示之上。

图 2:FEATHER+ 的编程视角,该可重构加速器能够协同切换映射与布局。此图展示了 FEATHER+ 的硬件核心组件:PE 阵列、全互连交叉开关、BIRRD 归约网络以及分级缓冲。与 FEATHER 相比,新增的全互连分发网络消除了片上数据冗余,简化了流缓冲并新增了输出-固定缓冲链路。这些硬件改进支持动态输入/权重,能够适配 LLM 运行时数据可变的场景,为 MINISA 的低开销控制提供了硬件支撑,同时仅带来极小的面积开销。

上图作为 FEATHER+ 的 programmer view,其真正重要的并非“多了一根连线”,而是输入、权重、输出在 streaming、stationary、output buffer 与 NEST 之间的角色终于可以实现动态交换。这为后续的运行时布局切换扫清了障碍。

图 10:端到端加速比与停顿分析。当阵列规模扩展至 16×256 时,MINISA 实现了最高 31.6 倍的加速。通过对比微指令与 MINISA 的性能,可以发现:在小规模阵列中,微指令的开销可以被计算过程所隐藏;但在大规模阵列中,微指令的取指停顿高达 96.9%。MINISA 完全消除了取指停顿,加速比随阵列规模扩大而显著提升。该结果证明,VN 抽象能够有效解决可重构加速器的控制开销瓶颈,且规模越大,优化效果越明显。

上图是全篇最重要的结果图之一。它成功地将“指令压缩”与“端到端加速”联系起来,表明 MINISA 的性能收益来源于控制路径,而非算力路径。

从公式角度来看,论文中最关键的三个表达式分别对应于映射、流式执行以及复杂度分析。

第一个是 ExecuteMapping 对 stationary WVN 的参数化放置:

该公式表明,列间复制、行内步长、列内周期并非独立的临时配置,而是被统一纳入一个规则化的映射描述符中。

第二个是 ExecuteStreaming 对流入列顶端的 IVN 注入位置定义:

它体现了时间维度上的复用语义:同一列中的所有 PE 会在连续的周期内复用同一条 streamed VN 流。

第三个是论文对 baseline 控制复杂度随阵列扩展的观察。文中指出,随着阵列规模增大,BIRRD 相关指令的增长大致呈 ,而 buffer 地址相关的增长则呈 。 这意味着,如果继续沿用微指令方式,那么阵列扩展越成功,控制路径反而会越成为制约硬件性能的瓶颈。

以上内容可以这样概括:MINISA 并非简单地用几个漂亮的公式来重新包装 FEATHER+,而是将原本分散在交换网络、地址发生器和 PE 控制逻辑中的隐式结构,提炼成了显式的参数。因此,“结构可编译”才第一次成为可能。

八、相关工作:MINISA 在学术坐标系中的定位

这篇论文的价值,并非否定 TPU、MAERI 或 FEATHER,而在于它填补了“可重构控制抽象”这一长期被低估的缺口。

从论文的脉络来看,MINISA 位于三条研究线的交汇点。

8.1 固定功能 AI ASIC 这条线

Google TPU、Meta MTIA、Amazon Trainium 代表了更粗粒度、围绕规则矩阵乘法构建的工业 AI ASIC 路线。其优势在于高效、成熟且软硬件协同完善;** 其弱点则在于,面对高度不规则、粒度不对齐的工作负载时,难以维持高利用率。 MINISA 并非要替代这类架构,而是强调:当负载形状高度碎片化时,固定粒度会天然处于劣势。

8.2 可重构数据流加速器这条线

MAERI、SIGMA、Flexagon、PolyGraph、DSA-Gen、Over-Gen 等工作,其核心都在于提升数据流与互连的灵活性。FEATHER 则进一步将“数据流切换”和“布局重排”整合在一起。MINISA 对这条线的贡献,并非增加一种新的互连方式,而是将控制抽象从微配置提升到 VN 配置,解决了“架构可重构,但编程不可扩展”的问题。

8.3 HE 与 ZKP 这类新型工作负载

论文专门引入 FHE 和 ZKP,并非仅仅为了证明“我的架构很通用”,而是因为这两类工作负载恰好构成了对刚性矩阵引擎最不友好的测试集:矩阵尺寸小、形状不规则、批次零碎、归约维和输出维经常不对齐。如果 MINISA 仅在 Transformer MLP 上有效,那它更像一篇特定领域的优化论文;但它能够覆盖 HE 与 ZKP,这充分说明作者瞄准的是更广义的 irregular GEMM 时代。

从这个角度看,MINISA 的研究定位非常明确:它并非重新定义可重构硬件,而是在“可重构硬件已经出现”的基础上,继续向前推进一层,使这种硬件首次具备了不被控制面拖垮的可规模化软件接口。

九、结论与展望

MINISA 的真正启示,并非“ISA 可以做得更小”,而是“ISA 的抽象边界必须与硬件的原子能力严格对齐”。

9.1 结论总结

这篇论文完成了三项相互关联的工作。

  1. 首先,它将 FEATHER 修补为 FEATHER+,消除了动态场景下对离线预重排和片上冗余复制的依赖。
  2. 其次,它将控制抽象提升到 VN 层面,也就是与 PE 原子点积对齐的粒度。
  3. 最后,它利用 MINISA 与 mapper,将硬件灵活性转化为可编译、可搜索、可跨层组合的指令与编译流程。

在实验方面,论文证明了这一思路并非纸上谈兵:在大阵列和不规则形状下,MINISA 能够显著压缩指令流量,消除 instruction-fetch stall ,并将这些收益转化为端到端的速度提升。

9.2 进阶分析

作者的核心主张是成立的,但同样存在几个必须明确的边界。

  1. 论文主要评估的是 50 个 GEMM 内核,而非完整的大模型图执行,因此,它对全图系统收益的证明仍属于“方法可外推”的范畴,而非“全栈已验证完毕”。
  2. 与 GPU/TPU 的对比建立在特定的功耗预算与不规则 GEMM 集之上,读者 不应将 23.7× 和 7.8× 的加速比直接推广为通用结论。
  3. 虽然 FEATHER+ 的面积开销不大,但论文的 PnR 结果仍是在固定 buffer 深度且以寄存器实现 buffer 的设定下给出, 在真实的大规模 SRAM 部署场景下,仍需进一步评估物理实现的细节。

尽管存在这些边界,但本文的核心价值并未因此被削弱。相反,它们恰好揭示了作者真正应对的一个更深层挑战:当硬件灵活度持续提升时,软件和指令集架构(ISA)应该以何种粒度来承接这种灵活性?一旦这个问题得到正确解答,受益的将不仅仅是 FEATHER+,其他面向未来的可重构矩阵引擎同样能够从中获益。

如果说 FEATHER 解答的是“硬件能否以低成本实现数据流与布局的切换”,那么 MINISA 回答的则是“软件如何在不付出指数级控制代价的前提下,利用这种灵活性”。 后者,才是决定可重构架构能否迈向大规模部署的关键分水岭。

9.3 未来展望

基于原文内容,可以稳妥地推导出若干潜在研究方向。

  1. 将当前针对 GEMM 和卷积的优化,拓展至更复杂的算子链条,尤其是那些包含大量对布局敏感的中间算子的多层图优化。
  2. 将虚拟神经元(VN)级别的控制理念推广到其他可重构矩阵引擎,验证这种抽象模型是否具备跨架构的通用性。
  3. 在真实 SRAM、片外带宽受限以及更复杂的缓存层级环境下,重新评估 MINISA 在大规模部署场景中的控制收益边界。
  4. 深化与图编译器的融合,使布局兼容性、层间复用以及 trace 生成不再仅停留在论文原型阶段,而是融入更完整的编译生态体系。
  5. 将当前以矩阵乘法为主的评估范围,扩展到更复杂的在线推理路径,特别是那些具有动态 shape 和多分支控制流的系统场景。

最终来看,MINISA 的意义远不止于这 8 条指令本身,而在于它首次将“可重构硬件的控制抽象该放在哪一层”这个问题,回答得足够清晰、足够可操作,并且足够具有说服力。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34463

(0)
上一篇 5小时前
下一篇 5小时前

相关推荐

  • LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破

    无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…

    2026年3月10日
    31100
  • PRISM:专为离散扩散语言模型设计的高效测试时扩展框架,颠覆传统自回归推理范式

    近年来,大模型能力的提升焦点正逐步从“训练时扩展”转向“推理时扩展”。从 Best-of-N、Self-Consistency 到更为复杂的搜索与验证框架,测试时扩展(Test-Time Scaling)已成为提升大模型复杂推理能力的关键范式。 然而,一个长期被忽略的问题是:这些方法大多默认模型采用自回归生成方式。 对于离散扩散语言模型(Discrete D…

    3天前
    10500
  • 告别暴力堆卡!FleetOpt用“压缩即路由”破解LLM推理集群成本悬崖,最高节省82.4% GPU成本

    关键词: LLM 推理、集群规划、成本悬崖、压缩即路由、M/G/c 队列 当我们在讨论大模型推理时,我们究竟在关注什么?是每秒处理的 Token 数(TPS)?是首字延迟(TTFT)?还是那令人瞩目的 GPU 云服务器账单? 如果你曾管理或规划过 LLM 推理集群,很可能面临过一个“房间里的大象”:我们的集群是为最坏情况设计的,但绝大多数请求从未触及那个边界…

    2026年4月1日
    32800
  • 智谱Scaling Pain揭秘:高负载下的隐形Bug与避坑指南

    Scaling即正义?智谱对此只能无奈摇头——过程极其痛苦,压力山大。 智谱最新发布的一篇技术博客画风突变,不再一味输出硬核技术,而是大倒苦水,详细披露了从GLM-5以来遭遇的各种奇葩踩坑经历,官方将其称为 「Scaling Pain」。 我们的推理基础设施正承受着前所未有的压力,每天需处理数亿次Coding Agent调用。 过去几周,部分用户在使用GLM…

    2026年5月2日
    20200
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    2026年2月19日
    28400