上下文压缩

大模型推理

RAG延迟削减97%！REFRAG技术揭秘：压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效：冗余与延迟的根源传统检索增强生成（RAG）流水线通常将检索到的多个文本片段直接拼接，作为上下文输入给大语言模型。然而，这些片段之间往往缺乏紧密的语义关联，导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源，更关键的是，模型将大量时间耗费在了跨片段（cross-chunk）的、近乎无效的注意力计算上，效率低下。 …

2025年11月26日
6000
大模型推理

Meta REFRAG革新RAG架构：30倍提速、16倍上下文、成本减半，彻底解决上下文垃圾问题

你是否遇到过这样的困扰：只想让大模型读取10段关键资料，它却被迫处理100段，导致token消耗激增，响应速度却异常缓慢？这一行业普遍痛点，如今被Meta提出的全新方案彻底解决。他们刚刚开源了一个名为 REFRAG 的革新性RAG架构。其核心思想极为直接：在信息输入大模型前，将无关的上下文极度压缩，仅保留并提供真正有用的部分。实测数据令人印象深刻：* …

2025年11月23日
9000