MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!

MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口,而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用,自主拆解任务、按需处理信息。

上下文窗口不够,仍能推理

首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大,在处理超长文本时,都会面临一个共同问题:文本越长,模型对早期信息的记忆越模糊,导致推理性能直线下降。这类似于阅读一部百万字的小说,读到后半部分时,早已忘记了前半部分的关键情节。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

目前主流的解决方案包括上下文压缩、检索增强生成(RAG)或对模型进行架构级优化。例如,GPT-5.2-Codex采用了窗口内的原生上下文压缩技术,以在持续数周的大型代码库协作任务中保持全上下文信息。同时,为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。

与这些直接在模型内部“硬磕”的方法不同,RLM选择将上下文处理过程“外包”出去。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

RLM为模型搭建了一个可交互的Python编程环境(REPL)。其处理流程如下:
1. 启动Python REPL环境,将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量,进行逻辑拼接或语义处理,形成最终输出。

整个过程由模型自主决策,实现了按需处理,彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

实验数据显示,RLM有效处理的文本规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级。

在复杂长文本任务中,RLM的优势显著。例如,在要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%;采用RLM方案后,两款模型的F1分数分别跃升至58.00%和23.11%。

在600万至1100万Token规模的BrowseComp-Plus多文档推理任务中,基于GPT-5的RLM方案正确率高达91.33%,大幅超越其他长文本处理方案。即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

从调用成本看,在50分位数(常规任务场景)指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,显示出良好的性价比优势。

然而,在95分位数等高百分位区间,RLM的成本会出现明显飙升。这主要是因为RLM的推理过程是动态的,模型会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用频率。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

需要强调的是,RLM是一种不触及模型底层架构的通用推理策略。理论上,任何大语言模型都可以直接应用该方法,以极低的迁移成本获得处理超长上下文的能力。

论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18402

(0)
上一篇 2026年1月19日 上午8:20
下一篇 2026年1月19日 上午11:28

相关推荐

  • 揭秘200万奖金背后的AI方案:腾讯广告算法大赛冠军队如何用生成式推荐破解行业难题

    在国内,懂技术 —— 尤其是 AI 技术的年轻人,真的不缺崭露头角的机会。 前段时间,2025 年腾讯广告算法大赛结果揭晓,前 10 名队伍的全部成员都拿到了腾讯的录用意向书,冠军还拿到了 200 万元巨额奖金。 当时,看完选手们的答辩,腾讯公司副总裁蒋杰感慨地说,这届年轻人的知识储备令人惊叹,他们做出来的东西和工业界的实际工作非常接近,没有代差。 如果说大…

    2025年12月23日
    19100
  • LimiX:结构化数据处理的通用革命,开启工业AI新纪元

    在科幻作家刘慈欣的《超新星纪元》中,一个关于盐和味精供应量的场景深刻揭示了现代工业社会运转的本质——它建立在海量精确数据的处理之上。从生产计划到机器监控,再到电力调度,结构化数据如同社会的神经网络,支撑着工业化便利的每一个环节。这些以固定行列格式组织、关系预先定义的数据,构成了现代社会高效运转的基石。 然而,在人工智能浪潮席卷全球的今天,处理这些最基础的结构…

    2025年11月21日
    18700
  • AI智能体上下文工程的减法哲学:Manus五次重构揭示的高效设计原则

    在AI智能体开发领域,一个普遍存在的认知误区是:系统越复杂、功能越丰富、提供给模型的信息越多,其性能就越强大。然而,Hugging Face机器学习工程师Philipp Schmid近期分享的Manus AI案例,却彻底颠覆了这一传统观念。Manus团队在构建AI代理系统时,经历了五次彻底的重构,最终发现了一个反直觉的真理:删除代码往往比添加功能更能提升系统…

    2025年12月5日
    17700
  • 从辍学生到Sora核心开发者:Gabriel Petersson如何用ChatGPT颠覆传统教育路径

    在人工智能浪潮席卷全球的背景下,一个名为Gabriel Petersson的23岁丹麦青年,以其高中辍学生的身份,成为OpenAI研究科学家和Sora核心技术贡献者,引发了关于教育体系、人才认证与AI时代学习模式的深刻反思。他的故事不仅是一个个体逆袭的传奇,更折射出AI技术对传统知识获取、职业发展路径的颠覆性冲击。 Petersson的成长轨迹与传统教育范式…

    2025年11月29日
    20100
  • Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

    Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分,创造了新的纪录,并大幅领先于其他主流模型。 核心能力提升 Opus 4.6 在编程能力上实现了重要进步,能够更细致地规划任务,在大型代码库中进行更可靠的操作,并提升了…

    2026年2月6日
    8600