告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

随着大模型参数规模持续膨胀，Mixture-of-Experts（MoE）已成为平衡模型容量与计算成本的关键架构。然而，在真实世界的 Web 级系统中，MoE 的路由机制存在一个常被忽略的缺陷：它本质上是“无记忆”的。

在搜索、问答、对话等高并发场景中，大量输入并非彼此孤立，而是存在显著的语义重复与结构相似性。传统的 MoE 路由器每次仅基于当前输入独立决策，重新判断该激活哪些专家。这意味着，即便模型此前已在相似输入上找到了最优的专家组合，当再次遇到类似问题时，它依然可能从头开始探索。

这种“短视”的路由方式会引发三大问题：其一，重复计算导致推理延迟与资源浪费；其二，路由不稳定，输入的小幅扰动便可能触发完全不同的专家集合；其三，专家间的协作关系难以积累，模型仅在选择单个专家，而未能显式复用历史上验证有效的“专家团队”。

针对这一挑战，来自马上消费金融、南京航空航天大学、阿里巴巴等机构的研究团队提出了 RMS-MoE（Retrieval-Memory Synergy Mixture-of-Experts）。该工作将 MoE 路由从一次性的分类决策，重新定义为“检索—记忆—融合”的流程：模型不再仅依赖当前路由器的即时判断，而是从历史记忆中检索相似输入曾激活的高效专家组合，并与当前路由结果动态融合。

告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

论文标题：Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
会议：The ACM Web Conference 2026（WWW 2026）
作者：Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
机构：马上消费金融、南京航空航天大学、阿里巴巴
论文链接：https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

MoE 路由为何需要“记忆”？

MoE 的核心优势在于稀疏激活。给定一个输入，路由器从众多专家中挑选少数几个参与计算，从而在保持模型容量的同时降低每次前向传播的成本。

然而，当前主流的 MoE 路由方式大多仍遵循一种无状态范式：每个输入独立处理，历史上相似输入的专家选择经验并未被系统性利用。

这在离线基准测试中可能并不明显，但在真实的 Web 场景中却至关重要。例如，在搜索、开放域问答、智能客服和多轮对话中，用户请求往往包含大量语义重叠。同类问题、同类任务、同类表达会反复出现。如果系统每次都重新计算专家分配，就会造成明显的计算冗余。更重要的是，对于语义相近的输入，若专家激活集合频繁波动，模型行为也会变得不稳定。

RMS-MoE 的出发点在于：既然用户输入具有重复性，专家协作模式也应该可以被记录和复用。与传统 RAG 从外部知识库检索文本内容不同，RMS-MoE 检索的不是知识片段，而是模型内部的专家协作模式。换言之，它实现了一种架构性记忆：让模型记住自己过去是如何调度专家的。

RMS-MoE：从“即时路由”到“检索增强路由”

RMS-MoE 的整体框架由三个核心模块构成：共激活记忆（Co-Activation Memory, CAM）、自适应融合模块（Adaptive Fusion Module, AFM）和强化引导记忆更新（Reinforcement-Guided Memory Update）。CAM 用于存储和检索历史上有效的专家组合；AFM 用于动态融合记忆先验与当前路由器的实时判断；强化反馈式更新则利用任务反馈持续维护记忆质量。

从流程上看，当一个新输入进入模型后，RMS-MoE 首先通过输入编码器获取输入表示，同时标准路由器会生成一个实时专家激活结果。与此同时，CAM 根据当前输入表示，从记忆库中检索最相似的历史样本，并提取这些样本对应的专家激活模式。随后，模型根据检索相似度和历史效用信息，聚合得到一个记忆先验，即“历史上相似输入更可能适合哪些专家团队”。最后，AFM 学习一个动态融合权重，将记忆先验与实时路由器输出结合，得到最终的专家激活结果。

这种设计带来的好处是：对于熟悉、重复、语义相近的输入，模型可以更多地依赖历史上验证有效的专家组合；对于新颖或低相似度的输入，模型则能回退到实时路由器，保持灵活性。

告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

RMS-MoE 方法框架图

共激活记忆：记住的不是知识，而是“专家团队”

RMS-MoE 的关键模块是共激活记忆。CAM 可理解为一个动态的键值记忆库。每条记忆包含两部分：键是输入嵌入，值是对应的专家激活模式及相关元信息，例如历史奖励、最近使用情况等。

当新输入到来时，模型使用当前输入嵌入在 CAM 中检索 top-K 个相似条目。每个条目不仅代表一个相似输入，还携带了该输入曾激活的专家组合。随后，RMS-MoE 结合相似度和历史效用，对这些专家组合进行加权聚合，得到一个专家选择先验。

这里的核心思想是：专家之间的共同激活关系本身就是一种可复用的结构知识。传统 MoE 路由器往往独立评估每个专家是否应被激活，而 RMS-MoE 更关注“哪些专家曾一起有效工作”。这使得模型不仅是在选择专家，更是在复用专家团队的协作经验。

自适应融合：既相信记忆，也保留实时判断

仅有记忆是不够的。如果模型过度依赖历史经验，在遇到新任务、新表达或低频场景时，可能产生错误的迁移。因此，RMS-MoE 引入了自适应融合模块，通过一个可学习的动态门控系数 β 来控制记忆先验与实时路由之间的平衡。

当当前输入与 CAM 中的历史样本高度相似时，β 会更大，模型更倾向于使用记忆检索得到的专家组合；当相似度较低时，β 会减小，模型则更多依赖当前路由器的即时判断。这使得 RMS-MoE 并非一个简单的缓存系统，而是一个能根据输入熟悉程度自适应决策的路由框架。

简而言之，RMS-MoE 的路由逻辑可概括为：熟悉的问题，优先复用历史上表现好的专家团队；陌生的问题，回退到当前路由器，保持探索能力；模糊的问题，在记忆与实时判断之间动态折中。

强化反馈式更新：让记忆持续进化

为避免 CAM 退化为静态缓存，RMS-MoE 还设计了强化引导记忆更新机制。在训练过程中，模型根据任务反馈更新记忆条目的效用分数。论文中将负训练损失作为奖励信号，并使用指数滑动平均更新历史奖励。

同时，CAM 会记录条目的新近程度，并在容量受限时基于效用-新近度分数进行淘汰。也就是说，一个专家组合若在历史上多次带来良好任务表现，就更容易被保留和再次检索；若一个组合长期无效或过时，则会逐渐被削弱甚至移除。

此外，CAM 更新被设计为异步机制。模型不会在每次前向传播中同步修改索引，而是将更新操作缓冲后批量执行。这种设计避免了检索索引对梯度计算的干扰，也降低了在线更新带来的系统开销。

实验：在 WebQA 和 MultiWOZ 上同时提升准确率、延迟和稳定性

深度重写与降重结果

论文的主要评估工作基于 WebQA 数据集进行。该数据集包含 120 万个问答样本，且约 30% 的查询存在冗余，这一特性使其非常适合测试记忆增强路由在高重复性的 Web 场景中的表现。此外，研究团队也在 MultiWOZ 数据集上验证了该方法在多轮任务型对话中的泛化能力。

在实验环节，研究团队将 RMS-MoE 与多种强大的 MoE 基线模型进行了对比，包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 以及 DeepSeekMoE。所有模型均采用相同的 MoE 基础架构：配置 32 个专家，隐藏层维度为 1024，每个 token 激活排名前 4 的专家。RMS-MoE 额外设定了 CAM 容量为 10^5，并检索 top-5 个记忆条目。所有实验均在 8 张 NVIDIA A100 GPU 上完成，并报告了 10 次运行结果的均值与标准差。

在 WebQA 数据集上，RMS-MoE 取得了最优表现。与 DeepSeekMoE 相比，RMS-MoE 的 F1 分数提升了 2.7 个百分点，归一化延迟从 0.72× 降低至 0.53×，降幅约为 26%。对比 Switch Transformer，RMS-MoE 的端到端延迟几乎减少了一半。在 MultiWOZ 数据集上，RMS-MoE 同样保持了类似的优势，实现了 2.5 个 BLEU 分数的提升，并带来了 34% 的延迟降低。这表明该方法不仅适用于单一问答任务，也能有效迁移至多轮对话场景。

告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

图注: WebQA 主实验结果（延迟已归一化至 Switch Transformer）

消融实验：CAM 是性能提升的关键

为了深入分析各模块的贡献，论文进一步开展了消融实验。结果显示，移除 CAM 后，模型的 F1 分数从 82.5 降至 77.3，稳定性从 0.94 降至 0.85，这是性能退化最为明显的部分。这充分说明，对历史专家协作模式的检索与复用是 RMS-MoE 获得核心收益的来源。

当移除自适应融合（Adaptive Fusion）后，F1 分数下降至 78.2。这表明仅仅使用记忆是不够的，模型必须能够根据当前输入动态决定是“信赖记忆”还是“信赖当前的 router”。移除强化引导更新（reinforcement-guided update）后，F1 分数降至 79.8，稳定性也出现下滑，这说明持续维护记忆质量同样至关重要。

进一步的敏感性分析表明，RMS-MoE 对关键超参数表现出较强的稳健性。CAM 容量在 10^5 附近能达到较好的效果；top-K 检索数量在 K=5 时，能够在准确率与延迟之间取得较优平衡；而融合门控 β 最终稳定收敛至约 0.6，说明模型在相当一部分决策中会主动利用记忆先验。

告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

图注: WebQA 消融实验结果

为什么这项工作重要？

RMS-MoE 的意义不仅在于提出了一个新的 MoE 变体，更在于它重新审视了 MoE 路由的本质。过去，MoE 路由通常被视为一个即时决策问题：给定当前 token，选择若干专家。而 RMS-MoE 将其扩展为一个具有历史经验的动态过程：当前输入不仅由当前的 router 决定，还可以参考过去相似输入中已被验证有效的专家协作模式。

这带来了三个层面的变革。第一，路由从“无状态”转变为“有记忆”。模型能够复用历史上成功的专家组合，从而减少重复探索。第二，专家选择从“单专家打分”走向“专家团队复用”。RMS-MoE 显式地建模了共同激活模式，使专家协作关系成为一种可检索、可强化、可淘汰的结构。第三，检索增强不再局限于内容层。传统的 RAG 检索的是外部知识或文本片段，而 RMS-MoE 检索的是模型内部的架构行为。

对于 Web-scale 推理系统而言，这一点尤为关键。搜索、问答、对话、推荐和智能客服等场景都存在高频、重复、相似的用户请求。如何在保证模型效果的同时降低推理成本、提升响应稳定性，是大模型落地过程中一个非常现实的问题。RMS-MoE 提供了一种轻量但有效的思路：让模型记住自己过去做过的有效计算，并在相似场景中复用这些经验。

结语

随着大模型规模持续扩大，MoE 已成为提升模型容量与推理效率的重要路线。然而，真正高效的 MoE 不应仅仅是“稀疏激活更多专家”，更应当能够学习和复用专家之间的协作规律。

RMS-MoE 将检索、记忆与专家路由结合起来，为 MoE 架构引入了一种新的架构记忆（architectural memory）。实验结果表明，这种设计能够在 Web-scale QA 和多轮对话任务中同时改善准确率、推理延迟和路由稳定性。

展望未来，随着大模型在搜索、对话、智能客服和复杂任务系统中的进一步部署，如何让模型的内部计算路径更加稳定、可复用、可解释，将成为提升大模型系统效率的重要方向。RMS-MoE 的工作表明：大模型不仅需要记住外部知识，也需要记住自己“如何思考”和“如何调度计算资源”。

作者介绍

陶万杰：现任马上消费金融人工智能研究院算法副总监，拥有北京邮电大学硕士学位。他长期从事金融垂直领域大模型、智能客服、知识工程与高可信 AI 服务系统的研究。当前重点关注检索增强、混合专家模型、多智能体协同以及金融场景下可控、可解释、可规模化的大模型应用，致力于构建面向真实业务场景的高效、稳定、可信的智能服务系统。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33862

告别短视路由！RMS-MoE用记忆检索让MoE专家协作效率倍增

深度重写与降重结果

消融实验：CAM 是性能提升的关键

为什么这项工作重要？

结语

作者介绍

相关推荐

Harness系统：从AI脚手架到社会囚笼——当人类沦为进化工具下的冗余材料

Cog-RAG：让RAG在检索前先思考，用双超图架构模拟人类认知过程

周末实战：7个可上线级Agentic AI项目，助你打造高含金量作品集

华为CLI-Gym：首个公开的Terminal-Bench环境交互任务数据规模化方案，解决率提升20%

SLM天团破解Agent记忆三元悖论：LightMem实现毫秒级检索与2.5倍F1提升