RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效:冗余与延迟的根源

传统检索增强生成(RAG)流水线通常将检索到的多个文本片段直接拼接,作为上下文输入给大语言模型。然而,这些片段之间往往缺乏紧密的语义关联,导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源,更关键的是,模型将大量时间耗费在了跨片段(cross-chunk)的、近乎无效的注意力计算上,效率低下。

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 1:LLaMA-2–7B-Chat 模型在不同层对不同检索段落的注意力可视化。对角线值代表段内token的平均注意力,非对角线值代表跨段token的平均注意力。[Source].

随着上下文长度的增加,这一问题会急剧恶化。输入的无关信息越多,计算开销就越大,处理速度也就越慢。

从用户体验角度看,用户期望获得信息丰富、知识密度高且响应迅速(实时或近实时)的答案。传统RAG在延迟方面,尤其是首词生成时间(Time-to-First-Token, TTFT)上表现不佳,难以满足这一需求。同时,过长的上下文还会导致键值缓存(KV Cache)快速膨胀,进一步拖累推理性能。

REFRAG:基于“压缩、感知、扩展”三阶段的智能RAG

REFRAG(Rethinking RAG-based Decoding)技术从根本上改变了这一范式。其核心思想可以类比为:从“逐页阅读整本教材”转变为“先阅读精心编写的摘要,只在必要时深入查阅具体章节”。

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 2:REFRAG 的主体设计。输入上下文被分块,并由轻量级编码器生成块嵌入,这些嵌入可预先计算并高效复用。一个轻量级的强化学习策略网络决定哪些块需要被“扩展”。随后,这些块嵌入与问题输入的token嵌入一同送入解码器。[Source].

REFRAG的工作流程围绕三个阶段展开:压缩(Compress)感知(Perceive)扩展(Expand)

阶段一:压缩

核心模块: 轻量级编码器
功能: 不再将包含数百个原始token的文本块直接输入模型,REFRAG使用一个轻量级编码器(如RoBERTa)将每个文本块压缩成一个紧凑的、可复用的稠密向量,即“块嵌入”。这类似于将段落转化为“速查卡片”,大幅减少了输入数据的体积,且这些嵌入可以预先计算并缓存,显著提升推理效率。

阶段二:感知

核心模块: 强化学习策略网络
功能: 这是实现智能选择的关键。一个经过强化学习训练的轻量级策略网络扮演“检察官”角色,它会扫描所有已压缩的块嵌入,并动态决策哪些块对于当前问题至关重要,需要被“解压”回原始token。这一机制确保了关键细节得以保留,同时维持了整体输入的轻量化。

阶段三:扩展

核心模块: 解码器(大语言模型)
功能: 最终,解码器接收的输入是混合形式的:少量被选择性还原的原始token,以及大量易于处理的块嵌入。这种结构使得模型能够以更低的计算成本,访问到经过筛选的、高信息密度的上下文,从而在保证答案准确性的同时,大幅降低生成延迟。

REFRAG核心技术细节剖析

上下文压缩:如何高效编码文档?

在典型RAG中,每个检索到的段落都以原始token形式输入解码器,导致提示词膨胀和性能下降。REFRAG采用了更精巧的压缩方案。

分块与编码
首先,将长上下文切分为固定长度的。每个块通过一个轻量级编码器生成一个块嵌入,这是一个浓缩了该块语义信息的稠密向量。

训练解码器理解嵌入
关键挑战在于如何让解码器(如LLaMA)有效利用这些非原始的嵌入向量。REFRAG通过预训练策略解决:
* 重构任务:训练编码器,使其生成的嵌入能够帮助解码器尽可能准确地重构原始文本。
* 课程学习:从重构单个块开始训练,逐步增加同时处理的块数量,帮助编码器和解码器协同掌握压缩与解压能力。

预计算优势
这些块嵌入可以离线计算并缓存。在推理时,模型无需重复编码相同的文档块,从而获得显著的速度提升。

选择性解压:强化学习驱动的智能决策

盲目压缩所有内容存在丢失关键信息的风险。为此,REFRAG引入了基于强化学习的智能选择机制。

决策过程
训练一个RL策略网络,其目标是优化最终答案的生成质量(通常以最小化困惑度为准则)。该网络根据所有块嵌入,决定哪些块需要被解压回完整token。

性能验证

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 3:在不同压缩率下,通过选择性解压不同比例的块,比较输出序列的困惑度。对比了四种选择方法:RL策略、基于困惑度降序的启发式方法、基于困惑度升序的启发式方法以及随机选择。[Source].

如图3所示,与随机选择或简单的启发式方法相比,RL策略在所有压缩率下都能实现更低的困惑度,意味着能用更少的token获得更优的答案质量。值得注意的是,高压缩配置(如REFRAG_16)配合RL选择器,其效果甚至能超越压缩程度更低的配置(如REFRAG_8),实现了效率与效果的兼得。

性能评估:极速TTFT与不妥协的准确率

首词生成时间:数量级提升

REFRAG在关键的速度指标上实现了突破性进展。在16k token的上下文长度下:
* REFRAG_16(压缩因子k=16)的TTFT相比原始LLaMA加速了16.53倍。
* REFRAG_32(k=32)更是达到了惊人的30.85倍加速,并且仍以3.75倍的优势领先于此前的最先进方法CEPE。

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 4:REFRAG(k = 16)推理加速的实证验证。[Source].

图4表明,随着输入上下文长度的增加,REFRAG(蓝色实线)的速度优势愈发明显。

生成质量:保持竞争力

更重要的是,速度的提升并未以牺牲质量为代价。

困惑度评估

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 5:在不同模型上,对给定上下文后输出token序列的困惑度评估。上下文长度s=2048,输出长度o ∈ {512, 1024, 2048}。数值越低越好(↓)。[Source].

在一系列长上下文建模任务中,REFRAG保持了极具竞争力的困惑度水平,并未出现明显的性能退化,同时速度提升了数个数量级。相较于其他基于压缩的基线方法,其表现也更为稳定和出色。

RAG任务表现
在真实的RAG工作负载中,延迟预算通常非常紧张,REFRAG的优势更为突出。在相同的延迟限制下,原始LLaMA可能只能处理1个检索块,而REFRAG能够处理多达8个,为模型提供了更丰富的上下文信息。

这直接转化为更优的答案质量。在16个RAG任务基准测试中,REFRAG的平均准确率提升了+1.93%;当检索器性能较弱时,其优势更加显著。

RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

图 6:在强检索器(左)与弱检索器(右)场景下的RAG表现对比。REFRAG在相同检索段落下与LLaMA表现相近(弱检索器下略优),而在相同延迟下显著胜出。[Source].

图6清晰地显示,在任何给定的延迟水平上,REFRAG(橙色三角线)的性能都远超原始LLaMA(蓝色圆点线)。

总结与展望

REFRAG并未将RAG解码视为一个纯粹的算力问题,而是巧妙地将其重构为一个动态资源分配问题。它没有改变底层模型架构,而是通过引入可预计算的“块嵌入”和基于强化学习的智能选择器,从输入侧减少了冗余计算。

该方法的核心突破在于强化学习的应用。它作为一个智能调度器,持续权衡着压缩带来的效率与保留信息所需的准确性,使模型具备了动态感知输入重要性的能力。

展望未来,该方法的性能上限可能受限于轻量级编码器的压缩质量。下一步的演进方向或许是将这种选择性压缩机制更深层次地集成到基础模型的核心架构中,实现编码与解码的端到端协同优化。

参考文献: REFRAG: Rethinking RAG based Decoding


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/13332

(0)
上一篇 2025年11月25日 下午5:08
下一篇 2025年11月26日 上午9:13

相关推荐

  • 思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

    在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…

    2026年1月23日
    3500
  • 推理成本突破1元/百万token:浪潮信息元脑HC1000如何重塑AI产业竞争格局

    当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本” 不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。 在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器 ,将推理成本首次击穿至1元/每百万token 。 这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。 浪…

    2025年12月26日
    14200
  • 原生并行推理革命:NPR框架让AI智能体告别单线程思维,进化出多路径探索大脑

    近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。 北京通用人工智能研究院(BIGA…

    2025年12月27日
    8700
  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    6天前
    2400
  • 突破硬件壁垒:基于Triton的跨平台Attention内核实现5.9倍推理加速,性能达SOTA 105.9%

    我们所研究的优化方法累计实现了高达 589%的性能提升 ,并已将相关内核与框架作为开源项目贡献( ibm.biz/vllm-ibm-triton-lib )。最终,我们开发的高度优化内核已成为 vLLM 中 AMD 部署的默认注意力后端。 关键词:Triton、Attention Kernel 、Portability 、Large Language Mod…

    2025年12月21日
    22300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注