近期,“微调已死”的观点在学术界引发了热烈讨论。一篇由斯坦福大学、SambaNova及加州大学伯克利分校共同发表的论文,提出了一项名为“Agentic Context Engineering”(主动式上下文工程)的技术,使得大语言模型无需依赖传统微调即可实现自我优化。
而实际上,在此前,谷歌已在论文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中提出了一个相似的理念——ReasoningBank。该框架作为一种创新的记忆系统,能够帮助智能体从自身判断的成功与失败中提取经验,并将其组织为结构化记忆,整个过程无需人工标注。

如图所示,ReasoningBank不仅能从成功经验中总结有效策略,还能从失败中归纳关键教训,将其抽象为一系列可执行原则。整个过程形成一个闭环:面对新任务时,智能体从ReasoningBank中检索相关记忆以指导行动;随后,新产生的经验被分析、提炼并重新整合进记忆库,从而持续推动智能体策略能力的演进。
谷歌将ReasoningBank视为一个强大的经验学习引擎,并在此基础上探索“经验扩展”机制,以增强记忆系统与测试时扩展之间的协同效应。其重点并非增加任务数量以扩展经验广度,而是通过深入挖掘单一任务来提升经验的深度。
此外,谷歌还提出了“记忆感知的测试时扩展”(Memory-aware Test-Time Scaling, MaTTS),在并行与顺序两种模式下运行,通过生成多样化的探索路径提供对比信号,帮助ReasoningBank合成更具通用性的记忆内容。
最终,记忆与测试时扩展之间形成了正向循环:高质量的记忆引导扩展过程走向更有效的路径,而丰富的扩展经验则进一步优化记忆质量。这一反馈机制为智能体能力的扩展提供了新的维度。

论文链接:https://arxiv.org/pdf/2509.25140
这种能够实时从错误中学习的AI技术,受到了广泛关注与积极评价。

方法概述
ReasoningBank的整体架构如下图所示,其中经验被提炼为结构化的记忆单元,每个单元包含标题、描述与内容三部分。每当智能体面对新任务,它会从记忆库中检索相关条目以指导其与环境互动,并从执行轨迹中构建新的记忆。这些新记忆随后被整合回ReasoningBank,形成一个持续演进的闭环系统。

该框架主要包括以下关键组成部分:
- 记忆结构:每个记忆单元是从历史经验中提炼出的结构化知识,既保留了可迁移的推理模式,又剔除了冗余细节。每个单元包含:(i)标题,作为策略的简要标识;(ii)描述,用一句话概括记忆内容;(iii)内容,记录从经验中提取的推理步骤与决策逻辑。这种设计兼顾了人类可读性与机器可用性。
- 与智能体的集成:具备ReasoningBank的智能体能够借助过往策略指导决策,从而更稳健地应对未知任务。集成过程分为三个步骤:记忆检索、记忆构建与记忆整合。
- MaTTS:记忆感知的测试时扩展:如图3(a)所示,传统测试时扩展方法独立生成多条轨迹以形成更多记忆,但未充分利用对比信号。为此,谷歌提出MaTTS,通过并行与顺序两种扩展方式(图3(b)与(c)),更有效地从多样化探索中提炼记忆。
- 并行扩展:在同一查询下生成多个轨迹,通过比较不同结果识别稳定模式,过滤不可靠方案,从而提升记忆的可靠性。
- 顺序扩展:在初步推理基础上逐步优化,过程中生成的中间笔记也被视为有价值信号,用于捕捉修正路径与潜在洞见。

实验结果
谷歌在多个具有挑战性的基准任务上进行了实验,包括网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)等场景。
表1至表3分别展示了ReasoningBank在上述任务中的表现。结果显示,该方法在效果上最高相对提升34.2%,在效率上则减少了16.0%的交互步骤。



特别地,ReasoningBank与MaTTS的协同效果最为显著,构成了基于记忆的经验扩展的关键部分。在Webarena-Shopping子集上,谷歌将MaTTS与Gemini-2.5-flash结合进行实验,并设置了多个对比条件:(i)无记忆机制的MaTTS;(ii)无聚合机制的MaTTS;(iii)完整版MaTTS,以研究扩展因子k的影响(k=1表示无扩展)。
结果如下图所示,并行扩展与顺序扩展均带来性能提升,验证了该方法的有效性。

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4208
