在人工智能尤其是大模型驱动的智能体系统中,记忆机制一直是制约其长期任务执行与复杂推理能力的关键瓶颈。传统AI记忆系统普遍采用“压缩-摘要”模式,即将冗长的思维链、工具调用记录等历史轨迹压缩为简短的文本摘要以节省存储空间。这种做法的致命缺陷在于:信息保真度严重受损。如同将一本百科全书强行压缩成一张便利贴,当智能体后续需要回溯具体决策细节、工具参数或中间推理步骤时,关键信息往往已被丢弃,导致其无法准确回答需要细节支撑的问题,甚至出现“幻觉”或逻辑断裂。
近日,北京人工智能研究院发表的论文《General Agentic Memory Via Deep Research》提出了全新的GAM(通用智能体记忆)框架,其核心理念颠覆了传统认知:记忆的本质不是静态的数据存储,而是动态的搜索过程。预计算的记忆内容本质上是为了支持高效、精准的搜索而存在。该框架采用“即时编译”(JIT)策略,仅在需要回忆时才动态激活搜索过程,从而在保留完整原始信息的前提下,实现高效、高保真的记忆检索。
**框架架构与双组件设计**
GAM框架包含两个核心协同工作的模块:记忆器(Memorizer)与研究员(Researcher)。
记忆器负责对智能体的历史交互轨迹(包括对话、工具调用、环境反馈等)进行预处理。具体而言,它将长序列按2048个token为单位切分成独立的“页面”,为每个页面生成一个约50词的轻量级“微型备忘录”,同时完整保留原始页面内容。这一过程借鉴了BGE(Bidirectional Encoder Representations from Generators)地标检索的思想,为每个页面添加具有语义代表性的上下文标题,确保后续检索时能维持语义一致性。所有页面及其备忘录被存入可搜索的存储库中,形成记忆的基础设施。
研究员模块则是记忆检索的执行引擎。当智能体需要回忆信息时(例如基于当前任务或用户查询),研究员被激活,并执行一个“规划-搜索-反思”的三步循环:首先规划搜索策略(确定检索重点与方式),随后利用多种检索工具并行搜索记忆库,最后对检索结果进行反思评估,决定是否需进一步深入搜索或调整策略。默认配置下,研究员最多进行3轮反思,每轮检索5个最相关页面,且可根据任务复杂度动态调整轮次与数量。

研究员配备了三种互补的检索工具:向量搜索(处理语义相似性查询)、BM25(基于关键词的精确匹配)、以及ID访问(直接通过页面标识符定位)。实验表明,单一工具效果有限,但组合使用时性能显著提升,体现了“工具组合效应”。例如,在基准测试中,BM25单独使用F1分数为48.64%,向量搜索为32.31%,ID访问为28.96%,而三者结合后达到最佳性能。
**性能表现与关键发现**
在多项标准测试中,GAM框架展现出显著优势。在文档问答任务中,其准确率比单纯使用长上下文提示的方法高出37%,比基础检索增强生成(RAG)方法高出28%。具体数据进一步印证了其有效性:
– 在LoCoMo对话记忆测试中,单跳任务F1分数从48.62%提升至57.75%,多跳推理任务从35.27%跃升至42.29%。
– 在HotpotQA多跳问答任务中,面对448K token的长文档,GAM的F1分数达到59.81%,而传统方法普遍低于50%。
– 在RULER长文本理解任务的多跳追踪场景中,GAM准确率高达93.2%,而传统RAG方法因信息丢失严重,性能接近0%。

研究还揭示了一个关键现象:“上下文腐化”。即使使用支持128K上下文窗口的长文本模型,当面临大量无关或干扰信息时,模型性能仍会急剧下降。这表明,单纯扩展上下文窗口并非解决长程记忆问题的根本方案,而GAM的动态检索机制能有效过滤噪声,精准定位相关信息。
另一个有趣发现是模型规模对组件的影响差异。实验显示,当使用0.5B参数模型时,记忆器(负责相对简单的信息提取与摘要)仍能保持48.83的F1分数,而研究员(负责复杂的迭代规划与推理)性能则大幅下降至9.08。这凸显了迭代推理任务对模型能力的更高要求。
**效率与性能的权衡**
GAM框架在效率方面进行了明确权衡。由于其采用即时检索而非预载全文,响应时间相比传统方法有所增加。测试显示,处理1000页历史记录的平均响应时间为1.2秒,具体到不同规模文档:56K文档在线响应需12.43秒,224K文档需16.65秒,448K文档需18.49秒。这比传统方法慢10-50倍。
然而,这种时间成本换来了准确率的质的飞跃:从传统方法的20-30%提升至50-60%。在多数注重准确性与可靠性的应用场景(如医疗咨询、法律分析、复杂决策支持)中,这种权衡显然是值得的。研究团队还验证了“测试时计算缩放”的可行性,即通过增加反思轮数或检索页面数,性能可进一步提升,这是固定流程的传统方法无法实现的。

**范式转变与行业影响**
GAM框架的核心贡献在于重新定义了AI记忆的本质。传统方法将记忆视为数据压缩问题,追求存储效率;而GAM将其重构为动态搜索问题,追求检索精度与上下文适应性。这类似于人类的记忆过程:我们并非存储完整百科全书,而是存储索引与关键线索,在需要时通过联想与搜索重建细节。
这种范式转变带来三大优势:
1. **高保真度**:完整保留原始信息,避免压缩导致的信息损失。
2. **强适应性**:根据实时查询动态重建上下文,而非提供固定摘要。
3. **可优化性**:整个搜索过程可端到端地通过强化学习进行优化,持续提升检索策略。

此外,GAM的即时检索机制为AI工作流的可解释性与调试提供了新思路。有研究者指出,“决策路径比最终状态更重要”,GAM通过保留完整历史并支持回溯,使得智能体的决策过程变得透明、可审计。当然,也有观点认为这本质上是将人类档案管理的成熟方法(动态编目、按需调阅)迁移至AI系统,但其在复杂、高维数据中的实现仍具创新性。
论文作者表示,当前系统效率已达到实用水平,为智能体的长期任务部署、持续学习与复杂协作奠定了基础。未来方向可能包括进一步优化检索算法、降低延迟,以及探索在更大规模模型上的应用。
论文链接:https://arxiv.org/abs/2511.18423
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6076
