MIT革命性突破：RLM技术让大模型零改动解锁千万级上下文，推理性能飙升580倍

2026年1月19日上午11:23 • AI产业动态 • 阅读 234

MIT革命性突破：RLM技术让大模型零改动解锁千万级上下文，推理性能飙升580倍

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本！

MIT CSAIL研究团队提出了一种名为递归语言模型（RLM） 的长文本处理新方法，旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计，即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口，而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用，自主拆解任务、按需处理信息。

上下文窗口不够，仍能推理

首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大，在处理超长文本时，都会面临一个共同问题：文本越长，模型对早期信息的记忆越模糊，导致推理性能直线下降。这类似于阅读一部百万字的小说，读到后半部分时，早已忘记了前半部分的关键情节。

目前主流的解决方案包括上下文压缩、检索增强生成（RAG）或对模型进行架构级优化。例如，GPT-5.2-Codex采用了窗口内的原生上下文压缩技术，以在持续数周的大型代码库协作任务中保持全上下文信息。同时，为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。

与这些直接在模型内部“硬磕”的方法不同，RLM选择将上下文处理过程“外包”出去。

RLM为模型搭建了一个可交互的Python编程环境（REPL）。其处理流程如下：
1. 启动Python REPL环境，将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码，对文本变量进行关键词筛选、局部探查、逻辑拆分等操作，通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务，递归调用自身或轻量化子模型处理拆分后的文本片段，所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量，进行逻辑拼接或语义处理，形成最终输出。

整个过程由模型自主决策，实现了按需处理，彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。