告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

大型语言模型在处理长对话或多步复杂任务时,最头疼的就是记忆管理问题。现有的方法往往采用人工设定的规则来决定哪些信息该存、哪些该删,效果有限且不够灵活。

阿里巴巴团队最近在论文《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents》中提出了一种新思路:把记忆管理变成可学习的强化学习策略。

当前记忆管理的困境

想象一下,如果人类的大脑有两个独立的记忆部门:一个管长期记忆,一个管短期记忆,但两个部门从不沟通,各自按照固定规则工作。这就是当前LLM记忆管理的现状。

告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

长期记忆方面,传统方法主要分为两类:
触发式方案:像LangMem、Mem0这样的系统,在预设时间点执行固定的存储操作,就像定时闹钟一样机械。
代理式方案:如A-Mem等,使用额外的专家模型来管理记忆,增加了系统复杂度和推理成本。

短期记忆方面,主要依靠:
RAG检索增强:定期从外部知识库检索信息补充到上下文中。
周期性总结:按固定规则压缩对话历史,容易丢失关键细节。

这种割裂导致信息丢失、重复存储、无法智能决定记忆优先级等问题。现有的方法就像是“用字母顺序归档所有文件的机器人”,机械而低效。

AgeMem的解决方案

AgeMem框架将长期记忆(LTM)和短期记忆(STM)管理统一起来,让AI代理学会自主决定:
– 何时存储新信息到长期记忆
– 何时更新或删除过时信息
– 何时检索相关记忆
– 如何总结和过滤当前上下文

核心创新在于,这些决策不是硬编码的规则,而是通过三阶段强化学习训练出来的策略。

工具化记忆操作

AgeMem通过6个工具实现记忆管理:

长期记忆工具:
Add:存储新知识
Update:修改已存在的记忆
Delete:删除过时信息

短期记忆工具:
Retrieve:从长期记忆中检索相关信息
Summary:压缩对话历史
Filter:过滤无关内容

三阶段训练过程

  1. 第一阶段(LTM构建):模型学习识别哪些信息值得长期存储,就像学生学会记笔记。
  2. 第二阶段(STM控制):模型在嘈杂环境中学习过滤无关信息,相当于在喧闹房间里训练专注力。
  3. 第三阶段(整合推理):模型需要综合运用长期和短期记忆来解决实际任务,如同学生用笔记和现场思考应对考试。

技术亮点:Step-wise GRPO

论文采用了Step-wise Group Relative Policy Optimization (GRPO)训练技术。简单来说,当AI成功完成一个任务时,系统会回溯奖励所有在此过程中做出正确记忆决策的步骤。这个方法解决了记忆管理中的一个关键难题:如何让AI知道早期的记忆决策是否正确。

传统强化学习只在任务结束时给出奖励,但记忆操作的价值往往要到很久之后才能体现。比如AI在第1步存储了某个信息,但要到第50步才用上这个信息解决问题。

Step-wise GRPO的创新在于“奖励回溯机制”:
1. 组内比较:对于同一个任务,AI会生成多个不同的解决路径(比如8个)。
2. 相对评分:系统不看绝对分数,而是比较这8个路径的相对好坏。
3. 优势广播:表现最好的路径会被标记为“正样本”,它的每一步决策都会获得正向奖励。
4. 全程学习:从第1步的记忆存储到第50步的信息检索,整条链路上的所有记忆操作都会得到相应的奖励信号。

这就像老师批改作文时,不仅看最终成绩,还会回头表扬学生在构思、收集素材、组织结构等每个环节做得好的地方。通过这种方式,AI学会了在正确的时机做正确的记忆操作,而不是盲目地存储或删除信息。

实际效果

实验结果显示,AgeMem在多种LLM基础架构上都能显著提升任务性能、记忆质量和上下文使用效率。例如,在ToolBench基准测试中,采用该方法的DeepMiner-32B模型能够处理100多个工具调用,准确率达到33.5%。

告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

在五个基准测试中,AgeMem相比无记忆基线平均提升49.59%(Qwen2.5-7B)和23.52%(Qwen3-4B)。相比最佳基线方法,AgeMem平均提升4.82到8.57个百分点。

记忆质量显著提升

AgeMem不仅提升了任务表现,还大幅改善了存储记忆的质量。在HotpotQA数据集上,AgeMem的记忆质量得分达到0.533和0.605,远超其他方法。

告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

智能的工具使用

告别人工规则!阿里巴巴AgeMem:让LLM通过强化学习自主管理记忆,统一长短期记忆处理

训练后的模型学会了更智能的工具使用策略:
Add操作从0.92次增加到1.64次
Update操作从几乎为0增加到0.13次
Filter操作从0.02次增加到0.31次

这表明模型学会了主动维护记忆质量和上下文清洁。

论文还提供了三个典型案例,展示AgeMem如何在实际场景中工作:
1. 案例1:长期记忆构建与维护:用户修改学习偏好时,AgeMem能智能更新已存储的信息,避免冗余和冲突。
2. 案例2:干扰环境下的短期记忆管理:面对无关信息干扰时,AgeMem主动过滤噪音,保持任务聚焦。
3. 案例3:整合任务执行:AgeMem协调长短期记忆,检索相关知识并生成个性化回应。

小结

随着AI系统越来越多地参与复杂的多步骤任务,智能的记忆管理将成为关键能力。阿里巴巴的AgeMem研究体现了该领域的探索方向:

  1. 从规则驱动到学习驱动:记忆操作不再依赖人工规则,而是通过强化学习学习最优策略。
  2. 从分离到统一:长短期记忆不再各自为政,而是协调工作。
  3. 从被动到主动:AI不再被动接受所有信息,而是主动筛选和管理。

论文:https://arxiv.org/abs/2601.01885


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17965

(0)
上一篇 2026年1月10日 上午8:23
下一篇 2026年1月10日 上午10:38

相关推荐

  • 如何使用 Knowledge Graph 和 LLM 构建构建问答系统

    基于模拟 FAQ 文档构建的知识图谱 本文将介绍一个基于知识图谱(使用上一篇文章介绍的方法构建)和大型语言模型(LLM,此处使用 Gemma3-4b-it-qat)的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中,可在普通笔记本电脑上运行,且具备出色的指令遵循能力。 我们将以一个虚构智能手机产品的 FAQ 文本为例,复用上一篇文章的代码为其构建…

    2025年11月13日
    7500
  • DeepSeek OCR:颠覆传统,用视觉压缩破解AI扩展的“十亿美元级”文档处理难题

    Part I: 文本的“隐形重量” 我们通常认为文本是“轻”的:易于存储、传输和计算。但在大语言模型时代,文本变得非常“重”。 处理一张发票的PDF扫描件,就可能消耗1,000至5,000个tokens。将这个数量级乘以企业日志、法律合同、监管文件和数字化档案,总token量将变得极其庞大——其中大部分是冗余、昂贵且处理缓慢的。虽然OpenAI的GPT-4-…

    2025年10月31日
    7300
  • 探秘AI智能体设计模式:从ReAct到LATS,深入剖析智能体的“大脑”构建术

    AI智能体的设计模式围绕效率与灵活性展开:基础模式ReAct通过”思考-行动-观察”循环实现环境交互;Plan & Execute、ReWOO和LLM Compiler通过预规划和并行执行优化效率;反思架构赋予智能体自我改进能力;LATS实现多路径智能决策。这些模式为不同应用场景提供了关键设计思路。

    2025年10月14日
    36200
  • 超越基础RAG:构建面向学术论文的智能检索系统实战

    在AI工程实践中,你很快会意识到:并不存在一张可以完全照搬的“通用蓝图”。 对于检索增强生成(RAG)中的基础检索(“R”),标准流程包括文档分块、查询语义搜索、结果重排等。这套流程已广为人知。 但随着系统深入应用,一个问题会浮现:如果一个系统对一篇文档的理解仅限于几个零散的文本块,我们如何能称其为“智能”? 那么,如何确保系统获得足够的信息,从而做出“聪明…

    2026年1月19日
    5500
  • 300亿美元能否突破AI增长瓶颈?尤洋教授深度解析算力与智能的底层逻辑

    智能增长的瓶颈:300亿美元能否买到超越GPT-4的模型? 2026年将至,ChatGPT发布三周年,但关于“AI瓶颈期” 的焦虑正达到顶峰。 当全行业都在讨论如何通过量化、蒸馏来“省钱”时,新加坡国立大学校长青年教授、潞晨科技创始人尤洋 却提出了一个更为本质的拷问: 如果给你300亿美元预算,今天我们真的能训出比GPT-4强出几个维度的模型吗? 在《智能增…

    2025年12月31日
    8300