MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!

MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口,而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用,自主拆解任务、按需处理信息。

上下文窗口不够,仍能推理

首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大,在处理超长文本时,都会面临一个共同问题:文本越长,模型对早期信息的记忆越模糊,导致推理性能直线下降。这类似于阅读一部百万字的小说,读到后半部分时,早已忘记了前半部分的关键情节。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

目前主流的解决方案包括上下文压缩、检索增强生成(RAG)或对模型进行架构级优化。例如,GPT-5.2-Codex采用了窗口内的原生上下文压缩技术,以在持续数周的大型代码库协作任务中保持全上下文信息。同时,为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。

与这些直接在模型内部“硬磕”的方法不同,RLM选择将上下文处理过程“外包”出去。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

RLM为模型搭建了一个可交互的Python编程环境(REPL)。其处理流程如下:
1. 启动Python REPL环境,将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量,进行逻辑拼接或语义处理,形成最终输出。

整个过程由模型自主决策,实现了按需处理,彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

实验数据显示,RLM有效处理的文本规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级。

在复杂长文本任务中,RLM的优势显著。例如,在要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%;采用RLM方案后,两款模型的F1分数分别跃升至58.00%和23.11%。

在600万至1100万Token规模的BrowseComp-Plus多文档推理任务中,基于GPT-5的RLM方案正确率高达91.33%,大幅超越其他长文本处理方案。即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

从调用成本看,在50分位数(常规任务场景)指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,显示出良好的性价比优势。

然而,在95分位数等高百分位区间,RLM的成本会出现明显飙升。这主要是因为RLM的推理过程是动态的,模型会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用频率。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

需要强调的是,RLM是一种不触及模型底层架构的通用推理策略。理论上,任何大语言模型都可以直接应用该方法,以极低的迁移成本获得处理超长上下文的能力。

论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/18402

(0)
上一篇 2026年1月19日 上午8:20
下一篇 2026年1月19日 上午11:28

相关推荐

  • 突破3DGS内存墙:单卡RTX 4090+CPU内存实现亿级高斯点城市重建

    想用3D高斯泼溅 (3DGS) 重建一座城市? 过去,这往往意味着一套昂贵的GPU集群。如今,研究人员给出了另一种答案:一张RTX 4090,加上足够大的CPU内存,也可以完成城市级3D重建 。 来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM (CPU-offloaded Large-scale 3DGS training) 的系统。该工…

    2025年12月23日
    44400
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    42700
  • 像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境

    让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…

    2026年2月2日
    57100
  • 2026年开源LLM选型指南:从模型规模到架构实战,打造安全可控的AI应用

    到了2026年,关于AI的讨论焦点已经发生了根本性转变。我们早已告别了“聊天机器人演示”的早期阶段。如今,严肃的企业正在构建自己的内部AI解决方案。他们深刻认识到,虽然外部API服务便捷,但公司的核心数据才是最具价值的资产,他们不愿将处理这些数据的关键“大脑”长期租用给外部供应商。 与此同时,技术领域也迎来了一个重大里程碑:开源大语言模型(LLM)的性能已经…

    2026年2月6日
    3.5K00
  • 英伟达CES 2026技术盛宴:Rubin架构、开源AI与物理智能革命

    2026,黄仁勋开年第一讲来了! 5个小时前,英伟达创始人黄仁勋现身拉斯维加斯的CES 2026现场。3000名观众坐满礼堂,庭院里还有2000人在观看;全球数百万人通过直播欣赏这场新年技术盛宴。 这是我们今年的第一场主题演讲,我们得先把“蜘蛛网”清理掉。 黄仁勋的演讲长达90分钟,用他自己的话说,今天要“塞进去”的内容大概有15公斤那么多。 他首先开门见山…

    2026年1月6日
    44200