稀疏注意力

HISA：新稀疏注意力机制突破64K上下文瓶颈，提速2-4倍，即插即用无需重训

一项新的研究提出了一种名为HISA（分层索引稀疏注意力）的稀疏注意力机制。该方法旨在突破长上下文模型中的索引瓶颈，在64K上下文长度下，相比DeepSeek-V3等模型使用的DSA（DeepSeek Sparse Attention）索引器，可实现2至4倍的速度提升。该方法在显著提升速度的同时，几乎不损失模型精度，并且具备即插即用的特性，无需对现有模型进…

2026年4月7日

429000

大模型工程

突破记忆瓶颈！MSA架构实现100M Token长时记忆，开启大模型终身记忆新纪元

人的智能由推理能力与长期记忆能力构成。近年来，大模型的推理能力快速发展，但其长期记忆能力始终受限于上下文长度，难以突破。历史上，多种技术路线都试图解决这一问题，但均未能同时满足扩展性（Scality）、精度（Precision）与效率（Efficiency）的要求，形成了一个“不可能三角”。近期，论文《MSA: Memory Sparse Attention…

2026年3月19日

933000

大模型推理

FAST-Prefill：FPGA动态稀疏注意力加速器，突破长上下文LLM预填充瓶颈，性能提升2.5倍

FAST-Prefill 并非简单的算法硬件映射，而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征，定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案，更确立了一种方法论启示：针对特定工作负载，精巧的架构设计往往比通用算力的堆砌更为高效。关键词：FPGA 加速、稀疏注意力、长上下文 LLM…

2026年3月4日

384000

大模型工程

智谱GLM-5技术全公开：国产芯片全适配，长任务时代开启

GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。论文标题直接点明了其核心主张：告别Vibe Coding，迈入智能体工程（Agentic Engineering）。正如之前的实测所示，GLM-5能够自主连续运行代码超过24小时，进行超过700次工具调用和800次上下文切换，甚至可以从零开始构建一个Game Boy Advance（…

2026年2月25日

489000

AI产业动态

高通QuoKA：无需训练、硬件无关，88% KV缩减实现5倍推理加速，革新LLM预填充效率

关键词：大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速无需训练、不依赖特定硬件，仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。近年来，随着大型语言模型（LLM）的广泛应用，其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…

2026年2月11日

355000

AI产业动态

突破百万上下文：面壁智能SALA混合注意力架构引领端侧大模型新纪元

最强的大模型，已经把scaling卷到了一个新维度：百万级上下文。几天前，Claude Opus 4.6发布，让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风，也很快吹到了端侧。面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构，不仅解决了…

2026年2月11日

346000