稀疏注意力
-
突破记忆瓶颈!MSA架构实现100M Token长时记忆,开启大模型终身记忆新纪元
人的智能由推理能力与长期记忆能力构成。近年来,大模型的推理能力快速发展,但其长期记忆能力始终受限于上下文长度,难以突破。历史上,多种技术路线都试图解决这一问题,但均未能同时满足扩展性(Scality)、精度(Precision)与效率(Efficiency)的要求,形成了一个“不可能三角”。近期,论文《MSA: Memory Sparse Attention…
-
FAST-Prefill:FPGA动态稀疏注意力加速器,突破长上下文LLM预填充瓶颈,性能提升2.5倍
FAST-Prefill 并非简单的算法硬件映射,而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征,定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案,更确立了一种方法论启示:针对特定工作负载,精巧的架构设计往往比通用算力的堆砌更为高效。 关键词:FPGA 加速、稀疏注意力、长上下文 LLM…
-
智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启
GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…
-
高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率
关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…
-
突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元
最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…
