索引优化
-
HISA:新稀疏注意力机制突破64K上下文瓶颈,提速2-4倍,即插即用无需重训
一项新的研究提出了一种名为HISA(分层索引稀疏注意力) 的稀疏注意力机制。该方法旨在突破长上下文模型中的索引瓶颈,在64K上下文长度下,相比DeepSeek-V3等模型使用的DSA(DeepSeek Sparse Attention)索引器,可实现2至4倍的速度提升。 该方法在显著提升速度的同时,几乎不损失模型精度,并且具备即插即用的特性,无需对现有模型进…
一项新的研究提出了一种名为HISA(分层索引稀疏注意力) 的稀疏注意力机制。该方法旨在突破长上下文模型中的索引瓶颈,在64K上下文长度下,相比DeepSeek-V3等模型使用的DSA(DeepSeek Sparse Attention)索引器,可实现2至4倍的速度提升。 该方法在显著提升速度的同时,几乎不损失模型精度,并且具备即插即用的特性,无需对现有模型进…