预填充阶段
-
FAST-Prefill:FPGA动态稀疏注意力加速器,突破长上下文LLM预填充瓶颈,性能提升2.5倍
FAST-Prefill 并非简单的算法硬件映射,而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征,定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案,更确立了一种方法论启示:针对特定工作负载,精巧的架构设计往往比通用算力的堆砌更为高效。 关键词:FPGA 加速、稀疏注意力、长上下文 LLM…