强化学习重塑记忆系统：Mem-α如何让大模型学会“主动记忆”

在人工智能领域，大语言模型的快速发展正将“记忆”问题推向技术前沿。当前，即使是最先进的GPT-4.1等模型，在处理持续增长的交互时，仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令，导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现，标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学圣地亚哥分校Yu Wang在Anuttacon实习期间完成的研究，首次将强化学习引入大模型的记忆管理体系，让模型能够自主学习存储、更新和组织记忆的策略。

**论文信息**

– 标题：Mem-α: Learning Memory Construction via Reinforcement Learning

– 论文链接：https://arxiv.org/abs/2509.25911

– 代码仓库：https://github.com/wangyu-ustc/Mem-alpha

– 开源模型：https://huggingface.co/YuWangX/Memalpha-4B

– 训练数据集：https://huggingface.co/datasets/YuWangX/Memalpha

– 测试数据集：https://huggingface.co/datasets/YuWangX/Memalpha-Memoryagentbench

**记忆瓶颈：人工规则的局限性**

现有记忆增强智能体（如MIRIX、MemGPT）通常依赖开发者预先设计的指令模板来指导记忆操作。然而，在复杂的交互环境中，这种基于规则的方法面临三大根本性挑战：首先，模型难以判断哪些信息值得长期保留；其次，无法准确识别何时需要更新旧有记忆；最后，在多类型记忆之间进行合理分配的能力严重不足。这些缺陷直接导致“记错”和“忘记”现象频发。如图所示，在没有强化学习优化前，Qwen3-4B模型未能有效更新核心记忆，语义记忆仅保存了片段性信息，最终导致问答错误。而经过Mem-α训练后，模型开始展现出“主动学习”能力：能够识别关键事件，并将其分别写入核心记忆（Core Memory）、情景记忆（Episodic Memory）和语义记忆（Semantic Memory）中，实现全面的信息保留与高效压缩。

**从规则到学习：Mem-α的核心机制创新**

Mem-α的核心贡献在于将记忆构建问题转化为可通过强化学习优化的序列决策问题。与以往依赖监督学习或手工规则的方法不同，Mem-α让智能体在处理信息流的过程中自主探索最优的记忆管理策略，并通过下游任务表现直接获得反馈。这种端到端的优化方式使得模型能够学习到真正有效的记忆构建策略，而非简单遵循预设规则。

**任务设定与架构设计**

如图所示，Mem-α将记忆构建建模为顺序决策过程。智能体依次处理信息块，动态决定执行哪些记忆操作，处理完成后利用构建的记忆系统回答问题。训练过程中通过多个奖励信号（

到

）获得反馈。被训练的智能体（🔥）专注学习记忆管理策略，而固定的大语言模型（❄️）负责根据记忆回答问题。这种分离式架构确保了记忆策略学习的专注性和有效性。

**奖励函数的多维度设计**

Mem-α采用精心设计的四维度奖励函数来优化记忆构建：问答准确率（

）作为最核心的信号，直接衡量基于记忆回答问题的准确率；工具调用格式（

）确保智能体正确使用记忆操作工具；记忆压缩（

）鼓励高效利用记忆空间；内容有效性（

）通过LLM评判器评估记忆质量。最终奖励（

）的优化过程中，实验发现

配置效果最佳，实现了各维度奖励的平衡协调。

**受启于人脑的三层记忆系统**

Mem-α的架构设计参考了认知科学中的记忆分类理论，构建了一个仿生的三层记忆体系：Core Memory（核心记忆）存储用户长期身份、目标与偏好；Episodic Memory（情景记忆）记录带时间线的具体事件；Semantic Memory（语义记忆）存放结构化的知识与事实。智能体需要在每个时间步动态决定调用哪种记忆类型、执行插入或更新操作。通过强化学习优化后，模型学会了如人类一般“灵活调用不同记忆系统”的能力，实现了记忆管理的智能化和自适应化。

**训练数据集的科学构建**

Mem-α训练数据集的构建思路来源于MemoryAgentBench的四个核心维度：精确检索（Accurate Retrieval）从历史数据中提取正确信息以回答查询，涵盖单跳和多跳检索场景；测试时学习（Test-Time Learning）在部署期间获取新行为或能力；长期理解（Long-Range Understanding）整合分布在多个片段中的信息，回答需要全面序列分析的查询；冲突解决（Conflict Resolution）在遇到矛盾证据时修订、覆盖或删除先前存储的信息。本研究聚焦于前三个维度，排除了冲突解决维度，主要是因为目前缺乏真实的评估基准——现有的冲突解决数据集主要是合成的，未能充分捕捉真实世界的复杂性。研究团队收集并整理了来自不同源头的八个数据集，处理到统一的范式，最后构造了一个完善的数据集并保证与MemoryAgentBench的测试集没有交织，涵盖了以上的前三个维度进行训练。

**实验结果与关键发现**

主实验显示，Mem-α在30k tokens上训练，在验证集（验证集也是<30k tokens的）上的效果如下：

；在测试集上的效果如下：

。

**四个关键发现**：

1. 全面超越现有方法：Mem-α在所有评测任务中均显著领先于基线模型。在MemoryAgentBench的精确检索（Accurate Retrieval）与长期理解（Long-Range Understanding）两个维度上表现尤为突出，展现出对未见分布的强泛化能力——证明强化学习训练出的记忆策略不仅“学得好”，还能“迁得远”。

2. 效率与性能兼得的记忆压缩：相较于Long-Context与RAG-Top2，Mem-α在保持更高性能的同时，记忆占用减少近50%。在BookSum与InfBench-Sum等长文理解任务中，语义压缩机制的优势进一步放大，证明其在“保真度”与“存储效率”之间实现了理想平衡。

3. 结构化记忆的决定性作用：实验显示，使

— 图片补充 —