PTO-ISA

  • Gated DeltaNet推理加速3倍!华为用PTO-ISA手写Megakernel,Triton基线被碾压

    在大语言模型推理的竞技场上,注意力机制的计算效率直接锁死了系统的吞吐天花板。作为线性注意力家族的新兴变体,Gated DeltaNet(GDN) 巧妙运用分块递推(chunk-wise recurrence)策略,从根本上绕开了标准 Attention 的二次复杂度瓶颈。 然而,算法层面的“线性”并不自动等价于硬件层面的“高效”。当七个紧密耦合的计算阶段被拆…

    大模型推理 3小时前
    2200