RAG延迟削减97%！REFRAG技术揭秘：压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效：冗余与延迟的根源

传统检索增强生成（RAG）流水线通常将检索到的多个文本片段直接拼接，作为上下文输入给大语言模型。然而，这些片段之间往往缺乏紧密的语义关联，导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源，更关键的是，模型将大量时间耗费在了跨片段（cross-chunk）的、近乎无效的注意力计算上，效率低下。

图 1：LLaMA-2–7B-Chat 模型在不同层对不同检索段落的注意力可视化。对角线值代表段内token的平均注意力，非对角线值代表跨段token的平均注意力。[Source].

随着上下文长度的增加，这一问题会急剧恶化。输入的无关信息越多，计算开销就越大，处理速度也就越慢。

从用户体验角度看，用户期望获得信息丰富、知识密度高且响应迅速（实时或近实时）的答案。传统RAG在延迟方面，尤其是首词生成时间（Time-to-First-Token, TTFT）上表现不佳，难以满足这一需求。同时，过长的上下文还会导致键值缓存（KV Cache）快速膨胀，进一步拖累推理性能。

REFRAG：基于“压缩、感知、扩展”三阶段的智能RAG

REFRAG（Rethinking RAG-based Decoding）技术从根本上改变了这一范式。其核心思想可以类比为：从“逐页阅读整本教材”转变为“先阅读精心编写的摘要，只在必要时深入查阅具体章节”。

图 2：REFRAG 的主体设计。输入上下文被分块，并由轻量级编码器生成块嵌入，这些嵌入可预先计算并高效复用。一个轻量级的强化学习策略网络决定哪些块需要被“扩展”。随后，这些块嵌入与问题输入的token嵌入一同送入解码器。[Source].

REFRAG的工作流程围绕三个阶段展开：压缩（Compress）、感知（Perceive） 和 扩展（Expand）。

阶段一：压缩

核心模块： 轻量级编码器
功能： 不再将包含数百个原始token的文本块直接输入模型，REFRAG使用一个轻量级编码器（如RoBERTa）将每个文本块压缩成一个紧凑的、可复用的稠密向量，即“块嵌入”。这类似于将段落转化为“速查卡片”，大幅减少了输入数据的体积，且这些嵌入可以预先计算并缓存，显著提升推理效率。

阶段二：感知

核心模块： 强化学习策略网络
功能： 这是实现智能选择的关键。一个经过强化学习训练的轻量级策略网络扮演“检察官”角色，它会扫描所有已压缩的块嵌入，并动态决策哪些块对于当前问题至关重要，需要被“解压”回原始token。这一机制确保了关键细节得以保留，同时维持了整体输入的轻量化。

阶段三：扩展

核心模块： 解码器（大语言模型）
功能： 最终，解码器接收的输入是混合形式的：少量被选择性还原的原始token，以及大量易于处理的块嵌入。这种结构使得模型能够以更低的计算成本，访问到经过筛选的、高信息密度的上下文，从而在保证答案准确性的同时，大幅降低生成延迟。

REFRAG核心技术细节剖析

上下文压缩：如何高效编码文档？

在典型RAG中，每个检索到的段落都以原始token形式输入解码器，导致提示词膨胀和性能下降。REFRAG采用了更精巧的压缩方案。

分块与编码
首先，将长上下文切分为固定长度的块。每个块通过一个轻量级编码器生成一个块嵌入，这是一个浓缩了该块语义信息的稠密向量。

训练解码器理解嵌入
关键挑战在于如何让解码器（如LLaMA）有效利用这些非原始的嵌入向量。REFRAG通过预训练策略解决：
* 重构任务：训练编码器，使其生成的嵌入能够帮助解码器尽可能准确地重构原始文本。
* 课程学习：从重构单个块开始训练，逐步增加同时处理的块数量，帮助编码器和解码器协同掌握压缩与解压能力。

预计算优势
这些块嵌入可以离线计算并缓存。在推理时，模型无需重复编码相同的文档块，从而获得显著的速度提升。

选择性解压：强化学习驱动的智能决策

盲目压缩所有内容存在丢失关键信息的风险。为此，REFRAG引入了基于强化学习的智能选择机制。

决策过程
训练一个RL策略网络，其目标是优化最终答案的生成质量（通常以最小化困惑度为准则）。该网络根据所有块嵌入，决定哪些块需要被解压回完整token。

性能验证

图 3：在不同压缩率下，通过选择性解压不同比例的块，比较输出序列的困惑度。对比了四种选择方法：RL策略、基于困惑度降序的启发式方法、基于困惑度升序的启发式方法以及随机选择。[Source].

如图3所示，与随机选择或简单的启发式方法相比，RL策略在所有压缩率下都能实现更低的困惑度，意味着能用更少的token获得更优的答案质量。值得注意的是，高压缩配置（如REFRAG_16）配合RL选择器，其效果甚至能超越压缩程度更低的配置（如REFRAG_8），实现了效率与效果的兼得。

性能评估：极速TTFT与不妥协的准确率

首词生成时间：数量级提升

REFRAG在关键的速度指标上实现了突破性进展。在16k token的上下文长度下：
* REFRAG_16（压缩因子k=16）的TTFT相比原始LLaMA加速了16.53倍。
* REFRAG_32（k=32）更是达到了惊人的30.85倍加速，并且仍以3.75倍的优势领先于此前的最先进方法CEPE。

图 4：REFRAG（k = 16）推理加速的实证验证。[Source].

图4表明，随着输入上下文长度的增加，REFRAG（蓝色实线）的速度优势愈发明显。

生成质量：保持竞争力

更重要的是，速度的提升并未以牺牲质量为代价。

困惑度评估

图 5：在不同模型上，对给定上下文后输出token序列的困惑度评估。上下文长度s=2048，输出长度o ∈ {512, 1024, 2048}。数值越低越好（↓）。[Source].

在一系列长上下文建模任务中，REFRAG保持了极具竞争力的困惑度水平，并未出现明显的性能退化，同时速度提升了数个数量级。相较于其他基于压缩的基线方法，其表现也更为稳定和出色。

RAG任务表现
在真实的RAG工作负载中，延迟预算通常非常紧张，REFRAG的优势更为突出。在相同的延迟限制下，原始LLaMA可能只能处理1个检索块，而REFRAG能够处理多达8个，为模型提供了更丰富的上下文信息。

这直接转化为更优的答案质量。在16个RAG任务基准测试中，REFRAG的平均准确率提升了+1.93%；当检索器性能较弱时，其优势更加显著。

图 6：在强检索器（左）与弱检索器（右）场景下的RAG表现对比。REFRAG在相同检索段落下与LLaMA表现相近（弱检索器下略优），而在相同延迟下显著胜出。[Source].

图6清晰地显示，在任何给定的延迟水平上，REFRAG（橙色三角线）的性能都远超原始LLaMA（蓝色圆点线）。

总结与展望

REFRAG并未将RAG解码视为一个纯粹的算力问题，而是巧妙地将其重构为一个动态资源分配问题。它没有改变底层模型架构，而是通过引入可预计算的“块嵌入”和基于强化学习的智能选择器，从输入侧减少了冗余计算。

该方法的核心突破在于强化学习的应用。它作为一个智能调度器，持续权衡着压缩带来的效率与保留信息所需的准确性，使模型具备了动态感知输入重要性的能力。

展望未来，该方法的性能上限可能受限于轻量级编码器的压缩质量。下一步的演进方向或许是将这种选择性压缩机制更深层次地集成到基础模型的核心架构中，实现编码与解码的端到端协同优化。

参考文献： REFRAG: Rethinking RAG based Decoding

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/13332

RAG延迟削减97%！REFRAG技术揭秘：压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效：冗余与延迟的根源

REFRAG：基于“压缩、感知、扩展”三阶段的智能RAG

阶段一：压缩

阶段二：感知

阶段三：扩展

REFRAG核心技术细节剖析

上下文压缩：如何高效编码文档？

选择性解压：强化学习驱动的智能决策

性能评估：极速TTFT与不妥协的准确率

首词生成时间：数量级提升

生成质量：保持竞争力

总结与展望

相关推荐

突破多GPU性能瓶颈：Triton与Iris融合通信计算，重塑分布式大模型推理新范式

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

揭秘浮点累加顺序黑盒：FPRev工具如何解决异构计算中的数值可复现性难题

性能远超 vLLM 和 SGLang！TileRT：编译器驱动下的 Tile-Based Runtime

Nexa SDK：实现手机、PC、边缘设备算力大一统的端侧AI终极形态

发表回复