MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍
让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!
MIT CSAIL研究团队提出了一种名为递归语言模型(RLM) 的长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口,而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用,自主拆解任务、按需处理信息。
上下文窗口不够,仍能推理
首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大,在处理超长文本时,都会面临一个共同问题:文本越长,模型对早期信息的记忆越模糊,导致推理性能直线下降。这类似于阅读一部百万字的小说,读到后半部分时,早已忘记了前半部分的关键情节。

目前主流的解决方案包括上下文压缩、检索增强生成(RAG)或对模型进行架构级优化。例如,GPT-5.2-Codex采用了窗口内的原生上下文压缩技术,以在持续数周的大型代码库协作任务中保持全上下文信息。同时,为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。
与这些直接在模型内部“硬磕”的方法不同,RLM选择将上下文处理过程“外包”出去。

RLM为模型搭建了一个可交互的Python编程环境(REPL)。其处理流程如下:
1. 启动Python REPL环境,将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量,进行逻辑拼接或语义处理,形成最终输出。
整个过程由模型自主决策,实现了按需处理,彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。

实验数据显示,RLM有效处理的文本规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级。
在复杂长文本任务中,RLM的优势显著。例如,在要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%;采用RLM方案后,两款模型的F1分数分别跃升至58.00%和23.11%。
在600万至1100万Token规模的BrowseComp-Plus多文档推理任务中,基于GPT-5的RLM方案正确率高达91.33%,大幅超越其他长文本处理方案。即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。

从调用成本看,在50分位数(常规任务场景)指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,显示出良好的性价比优势。
然而,在95分位数等高百分位区间,RLM的成本会出现明显飙升。这主要是因为RLM的推理过程是动态的,模型会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用频率。

需要强调的是,RLM是一种不触及模型底层架构的通用推理策略。理论上,任何大语言模型都可以直接应用该方法,以极低的迁移成本获得处理超长上下文的能力。
论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18402
