突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。

然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。

近日,Radical Numerics 与蒙特利尔大学 Yoshua Bengio 团队提出了一个新思路,为大型语言模型(LLM)的效率进化提供了一个极具启发性的工程视角。该团队通过将线性递归重新定义为与硬件对齐的矩阵运算,提出了一套能完美契合 GPU 内存层级的算法框架。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

  • 论文标题:Sliding Window Recurrences for Sequence Models
  • 论文地址:https://arxiv.org/abs/2512.13921

该研究的三位共同一作是 Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli,他们均来自旨在打造科学超级智能的创业公司 Radical Numerics。

核心挑战:打破线性递归的「内存墙」

研究团队首先指出,尽管并行扫描(Parallel Scan)算法在逻辑上能以 O(log n) 的深度并行化处理递归,但它们在现代分级内存硬件上表现不佳。

传统的并行扫描算法(如 Kogge-Stone)算法深度极低,但其数据访问模式往往跨越全局地址空间,导致频繁的全局内存同步和洗牌操作。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

在 GPU 这种具有多级缓存(寄存器、共享内存、显存)的架构中,这种“扁平化”的算法策略不仅无法有效利用数据局部性,更无法发挥 Tensor Core 等专用矩阵乘法硬件的计算峰值。这种由数据移动而非计算本身导致的瓶颈,正是长文本大模型训练和推理中亟待解决的“内存墙”问题。

为了从数学层面拆解这一问题,论文引入了转移算子(Transfer Operator)的矩阵理论。线性递归系统 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率 可以被视为一个单位下三角线性系统 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率 。通过对该系统进行分块处理,该团队揭示了转移矩阵 𝑳 背后深层的层级分解结构:突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

在这个公式中,𝓛 代表各数据块内部的独立计算,而 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率 则描述了跨块之间的“载体(Carrier)”信息传递。这一分解揭示了一个关键点:跨块通信的本质是秩-1(Rank-one)的低秩更新,这为消除全局同步提供了理论切入点。

解决方案:滑动窗口循环与 B2P 算法

该论文最核心的贡献是提出了滑动窗口循环(Sliding Window Recurrences, SWR),这是一种通过策略性截断计算视界来换取极高吞吐量的原语。

作者观察到,在实际训练的稳定系统中,系数 a_i 往往满足 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率 ,这意味着输入对状态的影响会随距离呈指数级衰减。因此,强制维护长程依赖在数值上往往是冗余且昂贵的。SWR 采用了独特的锯齿状窗口(Jagged Window)结构,而非传统的均匀窗口,这种结构能自然地对齐硬件的工作负载。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

为了将这一理论落地,作者开发了块两步(Block Two-Pass, B2P)算法及其对应的 CUDA 内核。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

该算法将计算过程分为两个阶段:
1. 第一阶段:每个线程束(Warp)并行处理一个大小为 16 的本地块(与 Warp 大小对齐),利用 Tensor Core 通过 GEMM 方式完成高效的本地递归求解。
2. 第二阶段:算法通过 GPU 片上的共享内存(SMEM)或分布式共享内存(DSMEM)在相邻块之间传递状态载体,并进行即时的秩-1 补偿。

这种设计确保了输入数据只需从显存读取一次,所有中间通信均发生在芯片内部,实现了接近恒定的 O(1) 算法深度和极佳的硬件利用率。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

Phalanx 层设计与层级架构集成

基于 B2P 算法,作者设计了名为 Phalanx 的新型计算层,它可以作为滑动窗口注意力或线性递归层的无缝替代品。在层参数化方面,Phalanx 遵循极简原则,通过 Sigmoid 激活函数将递归系数 a_i 限制在 (0, 1) 的稳定区间内,从而保证了长序列处理时的数值稳定性。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

同时,该层采用了基于头(Head)的参数共享模式,每个头共享一套递归系数,这与 Tensor Core 处理 16×16 矩阵瓦片的计算模型完美契合。

Phalanx 被定位为混合架构中的“局部专家”,专门负责高效捕获短程令牌互动,而将长程路由任务交给全局注意力层。这种职能分工使得模型能够在不损失精度的前提下,大幅减少跨内存层级的数据移动。

实验结果:速度与质量的双重突破

在针对 1.3B 参数规模模型的系统性测试中,Phalanx 展现出了显著的性能优势。在 FineWeb-Edu 数据集上,Phalanx+Attention 混合模型在多个维度上超越了优化的 Transformer 和滑动窗口注意力(SWA)基准。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

在训练吞吐量方面,当上下文长度在 4K 到 32K 之间时,Phalanx 混合模型实现了 10% 到 40% 的端到端提速。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

在 8K 上下文的训练任务中,Phalanx 混合模型的训练速度比传统的 SWA/Attention 混合架构快 28%,甚至在短序列长度下也表现卓越,在 Hopper GPU 上比纯注意力模型提升了 10% 的训练吞吐量。

在模型精度方面,实验数据显示 Phalanx 在匹配 Transformer++ 基准性能的同时,甚至在特定比例下取得了更低的困惑度。例如,在 1:1 的混合比下,Phalanx 达到了 10.85 的困惑度,优于 Transformer++ 的 10.95。

突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

此外,通过对衰减系数和门控机制的消融实验,作者证明了其精心设计的参数化方案对于维持模型表现的关键作用。

总结与行业意义

《Sliding Window Recurrences for Sequence Models》为下一代长文本模型架构指明了一个方向:真正的效率提升不仅来自算法复杂度的降低,更来自于对底层计算硬件物理特性的深刻理解与对齐。

通过将数学上的线性递归转化为硬件友好的块级矩阵运算,Phalanx 层成功在训练速度与模型质量之间找到了一个更优的平衡点。随着 LLM 继续向超大规模上下文和实时具身智能演进,这种硬件感知的算子设计将成为构建更高效、更强大 AI 系统的核心基石。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17216

(0)
上一篇 2026年1月7日 上午10:55
下一篇 2026年1月7日 下午12:49

相关推荐

  • MetaClaw:让AI聊天中自我进化,无需GPU集群的在线强化学习系统

    让AI聊天助手仅仅完成任务已不够,现在,开发者正致力于让  AI实现自我进化。 关键之处在于,这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统,为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集,也无需人工微调,旨在让AI在与用户的日常对话中持续学习、自主变强。 其核心在于 将用户与AI的自然对话直接转化为训…

    6天前
    21200
  • Meta与ThinkMachine联手突破MoE训练内存墙:MoEBlaze框架实现内存降低4倍、训练加速6倍

    关键词: MoEBlaze 、内存墙、MoE 训练 、索引化路由 在当今大模型浪潮中,参数规模已突破万亿,训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型(Mixture-of-Experts, MoE) 因其能够以稀疏激活的方式实现万亿参数级别的模型训练,已成为大规模语言模型的主流架构之一。 然而,MoE 的稀疏性在降低计算密度的同时,也…

    2026年1月13日
    24400
  • Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

    在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。 在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。 其后果是:那些仅差一…

    2026年2月20日
    10100
  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    2天前
    10600
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    15200