RAG优化

大模型推理

RAG延迟削减97%！REFRAG技术揭秘：压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效：冗余与延迟的根源传统检索增强生成（RAG）流水线通常将检索到的多个文本片段直接拼接，作为上下文输入给大语言模型。然而，这些片段之间往往缺乏紧密的语义关联，导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源，更关键的是，模型将大量时间耗费在了跨片段（cross-chunk）的、近乎无效的注意力计算上，效率低下。 …

2025年11月26日
81000
AI产业动态

REFRAG：突破RAG性能瓶颈，利用注意力稀疏性实现30倍加速

随着大语言模型在检索增强生成（RAG）系统中的广泛应用，一个日益突出的性能问题浮出水面：上下文窗口的持续扩展导致首个token生成延迟呈二次方增长，严重制约了系统的实时响应能力。传统RAG流程虽然简单直接——将查询编码为向量，从向量数据库中检索相似文本块，然后完整输入给LLM处理——但这种方法存在显著效率缺陷。大多数检索到的文本块包含大量无关内容，迫使LLM…

2025年10月17日
79000