强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

在人工智能领域,大语言模型的快速发展正将“记忆”问题推向技术前沿。当前,即使是最先进的GPT-4.1等模型,在处理持续增长的交互时,仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令,导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现,标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学圣地亚哥分校Yu Wang在Anuttacon实习期间完成的研究,首次将强化学习引入大模型的记忆管理体系,让模型能够自主学习存储、更新和组织记忆的策略。

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

**论文信息**

– 标题:Mem-α: Learning Memory Construction via Reinforcement Learning

– 论文链接:https://arxiv.org/abs/2509.25911

– 代码仓库:https://github.com/wangyu-ustc/Mem-alpha

– 开源模型:https://huggingface.co/YuWangX/Memalpha-4B

– 训练数据集:https://huggingface.co/datasets/YuWangX/Memalpha

– 测试数据集:https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

**记忆瓶颈:人工规则的局限性**

现有记忆增强智能体(如MIRIX、MemGPT)通常依赖开发者预先设计的指令模板来指导记忆操作。然而,在复杂的交互环境中,这种基于规则的方法面临三大根本性挑战:首先,模型难以判断哪些信息值得长期保留;其次,无法准确识别何时需要更新旧有记忆;最后,在多类型记忆之间进行合理分配的能力严重不足。这些缺陷直接导致“记错”和“忘记”现象频发。如图所示,在没有强化学习优化前,Qwen3-4B模型未能有效更新核心记忆,语义记忆仅保存了片段性信息,最终导致问答错误。而经过Mem-α训练后,模型开始展现出“主动学习”能力:能够识别关键事件,并将其分别写入核心记忆(Core Memory)、情景记忆(Episodic Memory)和语义记忆(Semantic Memory)中,实现全面的信息保留与高效压缩。

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

**从规则到学习:Mem-α的核心机制创新**

Mem-α的核心贡献在于将记忆构建问题转化为可通过强化学习优化的序列决策问题。与以往依赖监督学习或手工规则的方法不同,Mem-α让智能体在处理信息流的过程中自主探索最优的记忆管理策略,并通过下游任务表现直接获得反馈。这种端到端的优化方式使得模型能够学习到真正有效的记忆构建策略,而非简单遵循预设规则。

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

**任务设定与架构设计**

如图所示,Mem-α将记忆构建建模为顺序决策过程。智能体依次处理信息块,动态决定执行哪些记忆操作,处理完成后利用构建的记忆系统回答问题。训练过程中通过多个奖励信号(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)获得反馈。被训练的智能体(🔥)专注学习记忆管理策略,而固定的大语言模型(❄️)负责根据记忆回答问题。这种分离式架构确保了记忆策略学习的专注性和有效性。

**奖励函数的多维度设计**

Mem-α采用精心设计的四维度奖励函数来优化记忆构建:问答准确率(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)作为最核心的信号,直接衡量基于记忆回答问题的准确率;工具调用格式(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)确保智能体正确使用记忆操作工具;记忆压缩(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)鼓励高效利用记忆空间;内容有效性(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)通过LLM评判器评估记忆质量。最终奖励(

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

)的优化过程中,实验发现

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

配置效果最佳,实现了各维度奖励的平衡协调。

**受启于人脑的三层记忆系统**

Mem-α的架构设计参考了认知科学中的记忆分类理论,构建了一个仿生的三层记忆体系:Core Memory(核心记忆)存储用户长期身份、目标与偏好;Episodic Memory(情景记忆)记录带时间线的具体事件;Semantic Memory(语义记忆)存放结构化的知识与事实。智能体需要在每个时间步动态决定调用哪种记忆类型、执行插入或更新操作。通过强化学习优化后,模型学会了如人类一般“灵活调用不同记忆系统”的能力,实现了记忆管理的智能化和自适应化。

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

**训练数据集的科学构建**

Mem-α训练数据集的构建思路来源于MemoryAgentBench的四个核心维度:精确检索(Accurate Retrieval)从历史数据中提取正确信息以回答查询,涵盖单跳和多跳检索场景;测试时学习(Test-Time Learning)在部署期间获取新行为或能力;长期理解(Long-Range Understanding)整合分布在多个片段中的信息,回答需要全面序列分析的查询;冲突解决(Conflict Resolution)在遇到矛盾证据时修订、覆盖或删除先前存储的信息。本研究聚焦于前三个维度,排除了冲突解决维度,主要是因为目前缺乏真实的评估基准——现有的冲突解决数据集主要是合成的,未能充分捕捉真实世界的复杂性。研究团队收集并整理了来自不同源头的八个数据集,处理到统一的范式,最后构造了一个完善的数据集并保证与MemoryAgentBench的测试集没有交织,涵盖了以上的前三个维度进行训练。

**实验结果与关键发现**

主实验显示,Mem-α在30k tokens上训练,在验证集(验证集也是<30k tokens的)上的效果如下:

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

;在测试集上的效果如下:

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

**四个关键发现**:

1. 全面超越现有方法:Mem-α在所有评测任务中均显著领先于基线模型。在MemoryAgentBench的精确检索(Accurate Retrieval)与长期理解(Long-Range Understanding)两个维度上表现尤为突出,展现出对未见分布的强泛化能力——证明强化学习训练出的记忆策略不仅“学得好”,还能“迁得远”。

2. 效率与性能兼得的记忆压缩:相较于Long-Context与RAG-Top2,Mem-α在保持更高性能的同时,记忆占用减少近50%。在BookSum与InfBench-Sum等长文理解任务中,语义压缩机制的优势进一步放大,证明其在“保真度”与“存储效率”之间实现了理想平衡。

3. 结构化记忆的决定性作用:实验显示,使

— 图片补充 —

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7960

(0)
上一篇 2025年11月7日 下午2:51
下一篇 2025年11月7日 下午3:04

相关推荐

  • PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA

    PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA 如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。 然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)…

    2026年3月12日
    11400
  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    28000
  • Cocoon:基于TON的去中心化AI计算网络,如何重塑隐私与成本格局?

    Telegram创始人帕维尔·杜罗夫近期正式推出Cocoon,这是一个专注于机密AI计算的去中心化网络平台。杜罗夫宣称,Cocoon有望打破亚马逊AWS、微软Azure等云服务巨头在AI计算领域的垄断地位,为用户提供完全保密、无追踪且成本显著低于市场水平的AI推理服务。这一举措不仅是对现有云计算商业模式的挑战,更是对AI时代数据隐私与计算民主化的一次重要探索…

    2025年12月2日
    20100
  • Dual-Flow:颠覆传统对抗攻击范式,实现多目标多模型黑盒攻击新突破

    在人工智能安全领域,对抗攻击一直是研究的热点与难点。近日,清华大学与蚂蚁数科联合在NeurIPS 2024会议上提出的Dual-Flow框架,为这一领域带来了革命性的突破。该框架通过创新的双流结构和训练机制,实现了对多种模型、多种类别的黑盒攻击,且无需依赖目标模型结构或梯度信息,为AI模型的安全性评估与防御体系构建提供了全新的视角与工具。 Dual-Flow…

    2025年12月15日
    20200
  • 20亿融资!灵初智能All in人类原生数据,破解具身智能数据困局

    具身智能的竞争焦点,或许并不在于机器人硬件本身。 这一认知差异,正被敏锐的资本迅速转化为投资行动。 近日,灵初智能宣布完成总额约 20亿元 的 天使轮及Pre-A轮融资。 天使轮 由国开金融、国中资本、央视融媒体产业投资基金等国家级资本,某数千亿上市公司旗下战投、长飞光纤旗下基金等产业龙头资本,以及元生创投、珠海科技产业集团、钧山投资等多家知名基金共同投资。…

    2026年3月11日
    20700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注