突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

Transformer 架构已经深刻改变了世界，但它并非完美无缺，线性递归（Linear Recurrences）或状态空间模型（SSM）等竞争者正试图在保持模型质量的同时，显著提升计算性能和效率。

然而，现有的线性递归或状态空间模型虽然在理论上具有线性复杂度，但在高性能 GPU 上的实际表现往往不尽如人意，受限于内存带宽和全局同步带来的高昂通信成本。

近日，Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队提出了一个新思路，为大型语言模型（LLM）的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为与硬件对齐的矩阵运算，提出了一套能完美契合 GPU 内存层级的算法框架。

论文标题：Sliding Window Recurrences for Sequence Models
论文地址：https://arxiv.org/abs/2512.13921

该研究的三位共同一作是 Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli，他们均来自旨在打造科学超级智能的创业公司 Radical Numerics。

核心挑战：打破线性递归的「内存墙」

研究团队首先指出，尽管并行扫描（Parallel Scan）算法在逻辑上能以 O(log n) 的深度并行化处理递归，但它们在现代分级内存硬件上表现不佳。

传统的并行扫描算法（如 Kogge-Stone）算法深度极低，但其数据访问模式往往跨越全局地址空间，导致频繁的全局内存同步和洗牌操作。

在 GPU 这种具有多级缓存（寄存器、共享内存、显存）的架构中，这种“扁平化”的算法策略不仅无法有效利用数据局部性，更无法发挥 Tensor Core 等专用矩阵乘法硬件的计算峰值。这种由数据移动而非计算本身导致的瓶颈，正是长文本大模型训练和推理中亟待解决的“内存墙”问题。

为了从数学层面拆解这一问题，论文引入了转移算子（Transfer Operator）的矩阵理论。线性递归系统可以被视为一个单位下三角线性系统。通过对该系统进行分块处理，该团队揭示了转移矩阵 𝑳 背后深层的层级分解结构：

在这个公式中，𝓛 代表各数据块内部的独立计算，而则描述了跨块之间的“载体（Carrier）”信息传递。这一分解揭示了一个关键点：跨块通信的本质是秩-1（Rank-one）的低秩更新，这为消除全局同步提供了理论切入点。

解决方案：滑动窗口循环与 B2P 算法

该论文最核心的贡献是提出了滑动窗口循环（Sliding Window Recurrences, SWR），这是一种通过策略性截断计算视界来换取极高吞吐量的原语。

作者观察到，在实际训练的稳定系统中，系数 a_i 往往满足，这意味着输入对状态的影响会随距离呈指数级衰减。因此，强制维护长程依赖在数值上往往是冗余且昂贵的。SWR 采用了独特的锯齿状窗口（Jagged Window）结构，而非传统的均匀窗口，这种结构能自然地对齐硬件的工作负载。

为了将这一理论落地，作者开发了块两步（Block Two-Pass, B2P）算法及其对应的 CUDA 内核。

该算法将计算过程分为两个阶段：
1. 第一阶段：每个线程束（Warp）并行处理一个大小为 16 的本地块（与 Warp 大小对齐），利用 Tensor Core 通过 GEMM 方式完成高效的本地递归求解。
2. 第二阶段：算法通过 GPU 片上的共享内存（SMEM）或分布式共享内存（DSMEM）在相邻块之间传递状态载体，并进行即时的秩-1 补偿。

这种设计确保了输入数据只需从显存读取一次，所有中间通信均发生在芯片内部，实现了接近恒定的 O(1) 算法深度和极佳的硬件利用率。