线性注意力

Gated DeltaNet推理加速3倍！华为用PTO-ISA手写Megakernel，Triton基线被碾压

在大语言模型推理的竞技场上，注意力机制的计算效率直接锁死了系统的吞吐天花板。作为线性注意力家族的新兴变体，Gated DeltaNet（GDN）巧妙运用分块递推（chunk-wise recurrence）策略，从根本上绕开了标准 Attention 的二次复杂度瓶颈。然而，算法层面的“线性”并不自动等价于硬件层面的“高效”。当七个紧密耦合的计算阶段被拆…

大模型推理 3小时前

22000

AI产业动态

苹果新招：把Transformer的性能塞进Mamba，成本大降

近期，苹果公司公布了一项具有工程价值的关键技术进展：将性能强大但成本高昂的 Transformer 架构，改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源，切换到普惠的基础设施。为什么要进行这种改造？核心原因在于，尽管 Transformer 在过去十年主导了深度学习领域，但其计算成本随序列长度呈平方级增长。处理短文本时…

2026年4月22日

216000

大模型工程

哈工深团队突破线性注意力瓶颈！Norm×Direction分解实现视觉任务精度全面超越，70K+token超分任务显存降低92.3%

作者信息本文第一作者孟维康是哈尔滨工业大学（深圳）与鹏城实验室联合培养的博士生，本科毕业于哈尔滨工业大学，主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学（深圳）长聘教授、博士生导师，教育部青年长江学者，长期致力于高效能多模态机器学习研究，专注于高效与可信多模态大模型。研究背景随着 Transformer 在计算机视觉领域的广泛应用，处理高分…

2026年3月15日

639000

大模型推理

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

无需数据重训，视频扩散模型线性化提速20倍：CVPR 2024新突破视频生成已进入大规模时代，但随之而来的计算成本急剧攀升。生成一段10秒的视频，其token数量可超过5万，而模型核心的自注意力机制复杂度为O(n²)，导致推理过程极其缓慢，难以实用。将自注意力替换为复杂度为O(n)的线性注意力，是理想的解决方案，但现实情况是：直接替换会导致模型生成质量严…

2026年3月10日

328000

AI产业动态

突破百万上下文：面壁智能SALA混合注意力架构引领端侧大模型新纪元

最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。几天前，Claude Opus 4.6发布，让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风，也很快吹到了端侧。面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构，不仅解决了…

2026年2月11日

362000