DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」?

随着对大模型推理能力要求的提升,输入上下文的长度也在不断增长,1M tokens 及以上的上下文窗口正逐渐成为现实。然而,“读得更长”是否必然带来推理能力的提升?

在实际应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再是“不会推理”,而是源于“读不完、读不动、读不准”:
* 推理模型需要处理大量与任务无关的冗余信息;
* 计算成本与延迟随 token 数量快速上升;
* 关键信息容易被淹没在长文本中;
* 原始长文本中可能藏匿恶意内容,增加模型安全风险。

这引出了一个更本质的问题:知识获取(reading)与逻辑推理(reasoning),是否必须由同一个模型完成? 复杂推理或许需要大模型,但从海量信息中高效获取知识则未必。

为解决这一问题,来自上海人工智能实验室与复旦大学的研究团队提出了 DRIFT:一种将知识获取与推理明确解耦的长上下文推理框架。

DRIFT 采用双模型架构:一个轻量的知识模型负责读取超长文档,并将与当前任务强相关的关键信息压缩成高密度的隐空间表示;强大的推理模型则直接利用这些表示进行推理,无需再处理庞杂的原始文本。

实验结果表明,DRIFT 能显著提升推理效率,并在高压缩比设置下仍保持甚至提升任务性能,展示了 reading–reasoning 解耦的实用价值。更有趣的是,即使未经任何安全训练,由于推理模型不再直接接触原始文本,该架构在多种安全基准上也表现出更强的鲁棒性。

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

现有方法:压缩、检索与记忆,问题出在“谁来读”与“怎么读”

为应对超长上下文带来的计算和推理压力,现有工作主要从三个方向入手:压缩输入、引入检索,或参数化存储知识。

  • 压缩方法:可分为两类。一类是“硬压缩”,直接删除被判定为“低重要性”的 token,但其依赖局部、静态的重要性估计,容易误删关键信息。另一类是“软压缩”,将文本映射为潜在(latent)表示,但其本质仍是静态压缩,压缩结果与具体任务无关,容易保留冗余而忽视有用信息。
  • 检索增强生成(RAG):依赖从外部语料中检索相关内容,但整体效果受限于检索器性能,对检索策略较为敏感。
  • 参数化记忆:通过参数化记忆模块存储知识,推理效率较高,但通常依赖预训练,难以支持即时注入的超长新知识。

此外,DeepSeek 的 Engram 通过条件化参数记忆,将可复用的知识模式从 Transformer 主干中分离,在架构层面实现了知识存储与推理计算的解耦。不过,Engram 的记忆主要面向静态长期知识,对于即时注入的新知识,其适配性仍然有限。

本文核心贡献

  • 提出 reading–reasoning 解耦的结构性视角:将知识获取与逻辑推理显式分离,打破推理模型必须直接处理原始上下文的传统范式。
  • 重构知识输入模态:由小模型从超长文档中抽取与任务相关的高密度知识表示,不再以冗余的原始文本作为推理模型的输入。
  • 构建并验证高效的双模型框架:在多个长上下文推理基准上表明,该架构在显著压缩上下文规模的同时,仍能保持甚至提升复杂推理性能,并大幅降低推理延迟。

DRIFT 的核心:将 Reading 与 Reasoning 明确解耦

DRIFT 的核心思想并非“如何压得更狠”,而是重新定义知识进入推理模型的方式:推理模型不再直接处理冗长的自然语言文本,而是接收一种由小模型从原文中提炼出的、为推理而设计的高密度知识表示。这可以被视为一种独立于文本形式的“知识输入模态”。

基于这一视角,DRIFT 关注的是回答一个更根本的问题:读取知识与执行推理,是否本就应由不同模块承担? 在 DRIFT 中,小模型负责“读文档”并抽取与当前问题相关的关键信息,将其转化为紧凑的内部知识表示;推理模型则直接以这一模态作为输入,无需重新阅读和解析原始文本。

基于这种思想,DRIFT 的架构如图所示:

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈
DRIFT 整体框架图

  • 知识模型(小模型)
    • 处理超长文档输入。
    • 并行读取文本块并提取与查询(query)相关的信息,压缩为隐空间知识表示。
  • 推理模型(大模型)
    • 不再接触原始长文本。
    • 仅基于隐空间中的高密度事实表示执行推理。

Implicit Fact Tokens:一种中间知识表示
Implicit Fact Tokens 不是
* 句子级摘要
* 检索得到的文本片段


* 基于问题生成的隐空间表示
* 高信息密度的知识表示
* 专门为推理设计的输入模态

三阶段训练:教模型“怎么读,也怎么想”

DRIFT 采用三阶段训练策略:
1. LFRP:重建任务,让知识模型学会压缩信息。
2. QAFT-DC:动态压缩任务,让知识模型学会基于查询(query)压缩相关信息。
3. QAFT-QA:问答任务,让推理模型学会基于潜在事实(latent facts)进行推理。

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

实验结果:压得更狠,反而想得更清楚

在 LongBench-v2、LoCoMo、BAMBOO、L-Eval 等基准上进行了测试,涵盖长文本问答、多文档摘要、多轮对话长程记忆等场景。模型采用知识模型(3B)和推理模型(7B)的组合:
* 32× 压缩:性能整体接近甚至超过全上下文(Full-context)基线。
* 64× / 128× 压缩:性能稳定优于 ICAE / COCOM / xRAG 等压缩方法。
* 推理延迟:在各上下文长度下保持最低或接近最低。

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈
DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

种种实验说明:当阅读和推理被清晰拆分后,模型反而能更高效地工作。

推理能力并未被削弱:通用语言理解依然在线

一个自然的问题是:脱离原文阅读后,推理模型是否会失去通用能力?实验表明并非如此,训练后的推理模型仍能有效处理复杂推理、知识问答、代码生成和指令遵循等通用任务。

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

解耦架构带来的安全收益

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

实验还发现,在 Flames、SaladBench、AutoDAN、PAIR 等安全基准上,DRIFT 的安全鲁棒性也显著优于原始模型。值得注意的是,这一提升并未经过任何安全相关的训练。研究者认为这可能源于 DRIFT 的结构:推理模型不再直接暴露于攻击性提示(prompt),而是基于中间知识表示进行推理,从而天然降低了越狱攻击或安全诱导的影响。

总结:知识解耦的结构性视角

DRIFT 提供的是一种结构性视角:让小模型“读”,让大模型“想”。这种将知识获取与逻辑推理解耦的范式,为破解长上下文推理的效率瓶颈提供了一条新路径。

与其让推理模型承担所有职责,不如使其专注于最擅长的推理任务。这一思路在科学领域的 AGI 应用中同样适用。以蛋白质任务为例,我们的另一项工作「BioBridge: Bridging Proteins and Language for Enhanced Biological Reasoning with LLMs」探讨了类似问题:是否有必要让大语言模型(LLM)直接理解蛋白质序列?

BioBridge 给出的答案与 DRIFT 框架一致:由专业模型负责“解读蛋白质”,LLM 则专注于“推理”。

具体而言,该方法利用蛋白质语言模型(PLM)解析蛋白质序列,并生成 LLM 可理解的中间表示,再由 LLM 基于此表示进行任务相关的逻辑推理。

这种“读取-推理”解耦的设计,使 BioBridge 能够同时保持:
* 接近当前最优(SOTA)蛋白质模型的领域专业能力;
* 原有 LLM 的通用推理与语言能力。

DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

总结

从 DRIFT 到 BioBridge,贯穿其中的是一条清晰的技术主线:让推理模型直接“阅读”原始知识输入往往并非最优解;更高效的做法是先将领域知识提炼为适合推理的中间表示,再交由推理模型进行处理。

这种结构上的解耦不仅提升了推理效率,还可能带来额外的安全收益。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25713

(0)
上一篇 2026年3月14日 下午8:06
下一篇 2026年3月15日 上午8:34

相关推荐

  • RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

    传统RAG为何低效:冗余与延迟的根源 传统检索增强生成(RAG)流水线通常将检索到的多个文本片段直接拼接,作为上下文输入给大语言模型。然而,这些片段之间往往缺乏紧密的语义关联,导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源,更关键的是,模型将大量时间耗费在了跨片段(cross-chunk)的、近乎无效的注意力计算上,效率低下。 …

    2025年11月26日
    30500
  • MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

    由陈天桥带队的大模型团队MiroMind,正式发布了新一代重型推理智能体:MiroThinker-1.7 和 MiroThinker-H1。 “重型”意味着什么?它延续了V1.5版本的深度推理基因,旨在处理更复杂的任务并生成更精确的结果。 在多项深度研究任务的基准测试中,MiroThinker系列表现突出。其中,MiroThinker-H1刷新了多项任务的S…

    2026年3月16日
    71600
  • OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题

    随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…

    2026年4月15日
    27800
  • 清华MARSHAL框架:通过策略游戏自博弈激发大模型的多智能体推理泛化能力

    近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大语言模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水平,更将其推理能力有效泛化到了通用的多智能体系统中:在数学竞赛和专家级问答等一般推理任务中,显著提升了多智能体系统的整体表现。 论文标题:MARSHAL: …

    2026年1月9日
    32900
  • 揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略

    关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…

    2025年12月26日
    56100