MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!

MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口,而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用,自主拆解任务、按需处理信息。

上下文窗口不够,仍能推理

首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大,在处理超长文本时,都会面临一个共同问题:文本越长,模型对早期信息的记忆越模糊,导致推理性能直线下降。这类似于阅读一部百万字的小说,读到后半部分时,早已忘记了前半部分的关键情节。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

目前主流的解决方案包括上下文压缩、检索增强生成(RAG)或对模型进行架构级优化。例如,GPT-5.2-Codex采用了窗口内的原生上下文压缩技术,以在持续数周的大型代码库协作任务中保持全上下文信息。同时,为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。

与这些直接在模型内部“硬磕”的方法不同,RLM选择将上下文处理过程“外包”出去。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

RLM为模型搭建了一个可交互的Python编程环境(REPL)。其处理流程如下:
1. 启动Python REPL环境,将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量,进行逻辑拼接或语义处理,形成最终输出。

整个过程由模型自主决策,实现了按需处理,彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

实验数据显示,RLM有效处理的文本规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级。

在复杂长文本任务中,RLM的优势显著。例如,在要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%;采用RLM方案后,两款模型的F1分数分别跃升至58.00%和23.11%。

在600万至1100万Token规模的BrowseComp-Plus多文档推理任务中,基于GPT-5的RLM方案正确率高达91.33%,大幅超越其他长文本处理方案。即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

从调用成本看,在50分位数(常规任务场景)指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,显示出良好的性价比优势。

然而,在95分位数等高百分位区间,RLM的成本会出现明显飙升。这主要是因为RLM的推理过程是动态的,模型会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用频率。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

需要强调的是,RLM是一种不触及模型底层架构的通用推理策略。理论上,任何大语言模型都可以直接应用该方法,以极低的迁移成本获得处理超长上下文的能力。

论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18402

(0)
上一篇 2026年1月19日 上午8:20
下一篇 2026年1月19日 上午11:28

相关推荐

  • 千寻智能完成近20亿融资,估值破百亿,具身智能赛道迎来里程碑式突破

    近日,具身智能头部企业千寻智能连续完成两轮融资近 20 亿元,为行业发展注入强劲动能。 本轮融资阵容堪称行业资本的集中亮相:云锋基金、红杉中国、混沌投资(葛卫东)等超一线机构重磅入局;Synstellation Capital、TCL 创投、明荟投资(汇川技术董事长朱兴明家办)等产业资本协同加注;某头部国资机构、重庆产业投资母基金、杭州金投等国有资本鼎力支持…

    2026年2月24日
    13500
  • 欧洲AI新锐Mistral AI再发力:Devstral 2代码模型与Vibe CLI工具深度解析

    在人工智能领域竞争日益激烈的背景下,欧洲的Mistral AI近期以惊人的发布频率再次成为行业焦点。继一周前发布Mistral 3系列模型后,该公司又迅速推出了下一代代码模型系列Devstral 2以及原生命令行工具Mistral Vibe CLI。这一系列动作不仅展示了欧洲在AI前沿技术研发上的加速态势,也为全球开发者社区带来了新的技术选择。 Devstr…

    2025年12月10日
    21000
  • AI教育主权争夺战:算法如何重构大学课堂的权力格局与认知边界?

    AI教育主权争夺战:算法如何重构大学课堂的权力格局与认知边界? 全球高等教育机构正以前所未有的速度拥抱人工智能。《自然》杂志近期一篇题为《大学正在拥抱AI:学生会变得更聪明还是停止思考?》的报道,揭示了这一浪潮下的深层变革。 从清华大学为新生配备AI助理,到加州州立大学系统将52万师生接入ChatGPT Edu,再到谷歌向全球学生免费开放Gemini,AI正…

    2025年11月11日
    18400
  • OpenAI挖角英特尔首席AI官:算力军备竞赛下的巨头人才争夺战

    今天,人工智能领域的格局再次因一次关键人事变动而震动——英特尔首席技术官兼首席AI官Sachin Katti宣布离职,并正式加入OpenAI,负责构建面向通用人工智能(AGI)的算力基础设施。这一事件不仅揭示了OpenAI在算力布局上的战略野心,也暴露了传统芯片巨头英特尔在AI转型中的深层困境。 从技术背景来看,Sachin Katti的加入对OpenAI具…

    2025年11月11日
    17700
  • TOON vs JSON:为LLM优化的结构化数据格式革命

    在提示词日益冗长、AI模型愈发强大的当下,一个核心问题反复浮现:如何同时降低使用成本和处理时间? 在以编程方式使用大语言模型时,结构化输出已成为标准实践。开发者可以要求模型按特定格式输出,例如JSON。通过定义一个模型架构并阐明各字段含义,AI会尽力理解上下文,并在其能力范围内填充输出。 这使得处理AI的响应变得前所未有的便捷。然而,输入环节呢? 即便我们能…

    2026年1月31日
    15500