MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!

MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文本的推理能力。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

其核心思路并非将冗长的提示词直接塞入大模型的有限上下文窗口,而是将其“外包”给一个可交互的Python环境。模型通过自动编程和递归调用,自主拆解任务、按需处理信息。

上下文窗口不够,仍能推理

首先需要理解“上下文腐烂”这一核心挑战。无论大模型宣称的上下文窗口有多大,在处理超长文本时,都会面临一个共同问题:文本越长,模型对早期信息的记忆越模糊,导致推理性能直线下降。这类似于阅读一部百万字的小说,读到后半部分时,早已忘记了前半部分的关键情节。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

目前主流的解决方案包括上下文压缩、检索增强生成(RAG)或对模型进行架构级优化。例如,GPT-5.2-Codex采用了窗口内的原生上下文压缩技术,以在持续数周的大型代码库协作任务中保持全上下文信息。同时,为GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也已成为行业共识。架构优化的例子则包括社区普遍猜测的Gemini 3可能采用的环形注意力机制等。

与这些直接在模型内部“硬磕”的方法不同,RLM选择将上下文处理过程“外包”出去。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

RLM为模型搭建了一个可交互的Python编程环境(REPL)。其处理流程如下:
1. 启动Python REPL环境,将超长提示词作为字符串变量存入。
2. 模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过“编写代码-观察结果”的交互循环来减少无效信息摄入。
3. 模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务的输出均存储为REPL环境中的新变量。
4. 主模型编写代码读取并整合所有子任务的结果变量,进行逻辑拼接或语义处理,形成最终输出。

整个过程由模型自主决策,实现了按需处理,彻底解耦了输入文本长度与模型原生上下文窗口的绑定关系。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

实验数据显示,RLM有效处理的文本规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级。

在复杂长文本任务中,RLM的优势显著。例如,在要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%;采用RLM方案后,两款模型的F1分数分别跃升至58.00%和23.11%。

在600万至1100万Token规模的BrowseComp-Plus多文档推理任务中,基于GPT-5的RLM方案正确率高达91.33%,大幅超越其他长文本处理方案。即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

从调用成本看,在50分位数(常规任务场景)指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,显示出良好的性价比优势。

然而,在95分位数等高百分位区间,RLM的成本会出现明显飙升。这主要是因为RLM的推理过程是动态的,模型会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用频率。

MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

需要强调的是,RLM是一种不触及模型底层架构的通用推理策略。理论上,任何大语言模型都可以直接应用该方法,以极低的迁移成本获得处理超长上下文的能力。

论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18402

(0)
上一篇 2026年1月19日 上午8:20
下一篇 2026年1月19日 上午11:28

相关推荐

  • RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

    传统RAG为何低效:冗余与延迟的根源 传统检索增强生成(RAG)流水线通常将检索到的多个文本片段直接拼接,作为上下文输入给大语言模型。然而,这些片段之间往往缺乏紧密的语义关联,导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源,更关键的是,模型将大量时间耗费在了跨片段(cross-chunk)的、近乎无效的注意力计算上,效率低下。 …

    2025年11月26日
    8100
  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    8100
  • 让AI自我辩驳:Google角色反转提示技巧,准确率提升40%

    如何迫使 AI 自我辩驳,揪出错误推理,产出更锐利、更可靠的答案 绝大多数用户现在及未来都将通过网页与 AI 交互。他们唯一的工具是浏览器,结果完全取决于他们能写出的提示词。因此,多数人在使用先进 AI 工具时感到隐隐的失望,也就不足为奇。 你提出一个严肃的问题。AI 的回应自信、清晰、结构完备,乍看之下相当出色。但几分钟后,你开始觉得哪里不对劲——或许是漏…

    2026年1月21日
    4700
  • 突破多GPU性能瓶颈:Triton与Iris融合通信计算,重塑分布式大模型推理新范式

    关键词:大型语言模型、多 GPU 分布式执行 、 细粒度融合 、三税分析框架 、Triton、 跨 GPU 通信 Eliminating Multi-gpu Performance Taxes: A Systems Approach to Efficient Distributed LLMs https://arxiv.org/pdf/2511.02168v…

    2025年12月21日
    9700
  • OpenAI o1突破语言理解极限:首次展现匹敌人类语言学家的元分析能力

    导读:LLM再下一城!伯克利研究证明,OpenAI的o1展现出匹敌人类语言学家的元分析能力。 在人类诸多才能中,语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来,这一观点便深入人心。 尽管当前的大语言模型(如ChatGPT)已能流畅地进行日常对话,但一个根本性问题依然存在:人类语言的深层结构与特质,是否超越了AI的运算体系? 为了探究这…

    2025年11月8日
    7800