线性注意力
-
哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%
作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…
-
LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破
无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…
-
突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元
最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…
