“微调已死”新佐证：谷歌革新AI学习范式，开创双向经验学习之路

近期，“微调已死”的观点在学术界引发了热烈讨论。一篇由斯坦福大学、SambaNova及加州大学伯克利分校共同发表的论文，提出了一项名为“Agentic Context Engineering”（主动式上下文工程）的技术，使得大语言模型无需依赖传统微调即可实现自我优化。

而实际上，在此前，谷歌已在论文《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》中提出了一个相似的理念——ReasoningBank。该框架作为一种创新的记忆系统，能够帮助智能体从自身判断的成功与失败中提取经验，并将其组织为结构化记忆，整个过程无需人工标注。

如图所示，ReasoningBank不仅能从成功经验中总结有效策略，还能从失败中归纳关键教训，将其抽象为一系列可执行原则。整个过程形成一个闭环：面对新任务时，智能体从ReasoningBank中检索相关记忆以指导行动；随后，新产生的经验被分析、提炼并重新整合进记忆库，从而持续推动智能体策略能力的演进。

谷歌将ReasoningBank视为一个强大的经验学习引擎，并在此基础上探索“经验扩展”机制，以增强记忆系统与测试时扩展之间的协同效应。其重点并非增加任务数量以扩展经验广度，而是通过深入挖掘单一任务来提升经验的深度。

此外，谷歌还提出了“记忆感知的测试时扩展”（Memory-aware Test-Time Scaling, MaTTS），在并行与顺序两种模式下运行，通过生成多样化的探索路径提供对比信号，帮助ReasoningBank合成更具通用性的记忆内容。

最终，记忆与测试时扩展之间形成了正向循环：高质量的记忆引导扩展过程走向更有效的路径，而丰富的扩展经验则进一步优化记忆质量。这一反馈机制为智能体能力的扩展提供了新的维度。

论文链接：https://arxiv.org/pdf/2509.25140
这种能够实时从错误中学习的AI技术，受到了广泛关注与积极评价。

方法概述

ReasoningBank的整体架构如下图所示，其中经验被提炼为结构化的记忆单元，每个单元包含标题、描述与内容三部分。每当智能体面对新任务，它会从记忆库中检索相关条目以指导其与环境互动，并从执行轨迹中构建新的记忆。这些新记忆随后被整合回ReasoningBank，形成一个持续演进的闭环系统。

该框架主要包括以下关键组成部分：

记忆结构：每个记忆单元是从历史经验中提炼出的结构化知识，既保留了可迁移的推理模式，又剔除了冗余细节。每个单元包含：（i）标题，作为策略的简要标识；（ii）描述，用一句话概括记忆内容；（iii）内容，记录从经验中提取的推理步骤与决策逻辑。这种设计兼顾了人类可读性与机器可用性。
与智能体的集成：具备ReasoningBank的智能体能够借助过往策略指导决策，从而更稳健地应对未知任务。集成过程分为三个步骤：记忆检索、记忆构建与记忆整合。
MaTTS：记忆感知的测试时扩展：如图3（a）所示，传统测试时扩展方法独立生成多条轨迹以形成更多记忆，但未充分利用对比信号。为此，谷歌提出MaTTS，通过并行与顺序两种扩展方式（图3（b）与（c）），更有效地从多样化探索中提炼记忆。
- 并行扩展：在同一查询下生成多个轨迹，通过比较不同结果识别稳定模式，过滤不可靠方案，从而提升记忆的可靠性。
- 顺序扩展：在初步推理基础上逐步优化，过程中生成的中间笔记也被视为有价值信号，用于捕捉修正路径与潜在洞见。

实验结果

谷歌在多个具有挑战性的基准任务上进行了实验，包括网页浏览（WebArena、Mind2Web）和软件工程（SWE-Bench-Verified）等场景。

表1至表3分别展示了ReasoningBank在上述任务中的表现。结果显示，该方法在效果上最高相对提升34.2%，在效率上则减少了16.0%的交互步骤。

特别地，ReasoningBank与MaTTS的协同效果最为显著，构成了基于记忆的经验扩展的关键部分。在Webarena-Shopping子集上，谷歌将MaTTS与Gemini-2.5-flash结合进行实验，并设置了多个对比条件：（i）无记忆机制的MaTTS；（ii）无聚合机制的MaTTS；（iii）完整版MaTTS，以研究扩展因子k的影响（k=1表示无扩展）。

结果如下图所示，并行扩展与顺序扩展均带来性能提升，验证了该方法的有效性。

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/4208

“微调已死”新佐证：谷歌革新AI学习范式，开创双向经验学习之路

方法概述

实验结果

相关推荐

LLM记忆管理终于不用“手把手教”了，新框架让智能体自主管理记忆系统

AI在线强化学习实现“实践式学习”，斯坦福团队助力7B小模型性能大幅提升，表现超越GPT-4o

发表回复