MUSE框架：为推荐系统植入多模态海马体，唤醒十万级沉睡数据

在当今数字时代，用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而，当前主流推荐系统普遍面临着一个严峻挑战：它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求，这些系统往往只能处理用户最近数千条行为数据，而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为，传统基于ID的建模方法也只能将其视为一串串冰冷且互不相识的代码，无法捕捉其中蕴含的丰富语义关联。这种局限性不仅导致大量有价值的信息被浪费，更使得系统难以理解用户跨越时空的完整兴趣图谱。

阿里妈妈与武汉大学研究团队近期提出的MUSE（MUltimodal SEarch-based framework）框架，正是对这一核心问题的系统性回应。MUSE不仅仅是一个新的点击率预测模型，更是一个为推荐系统设计的“多模态海马体”——它通过整合图像与文本的语义信息，重新激活并理解用户长达十万级别的历史行为序列。这一创新不仅代表了技术层面的突破，更对推荐系统长期以来的演进路线进行了深刻反思与重构。

要理解MUSE的价值，首先需要回顾推荐系统技术演进的脉络。在搜索、广告、推荐等业务场景中，点击率建模技术大致经历了两个主要发展阶段：一方面，特征工程和ID嵌入体系不断完善，主流基于ID的建模方法已得到充分探索；另一方面，模型架构从仅关注短期行为，逐步演进到以SIM（Search-based Interest Model）为代表的“两阶段长期行为建模”框架。这种框架通过粗检索与精建模的两步策略，在保证实时性的前提下，将可用的历史行为长度扩展到万级别，带来了显著的业务收益。

然而，随着行为序列长度的持续增长，单纯在SIM类ID架构上进行局部优化的边际收益日益递减。特别是在检索精度受限的场景下，当序列从万级向十万级甚至百万级扩展时，效果提升会明显趋缓。这背后暴露出两个根本性瓶颈：第一，现有模型依赖高度稀疏的ID特征，长尾和过期商品的ID嵌入质量普遍不佳，而这些商品在用户“终身历史”中占比很高；第二，即便将十万条行为全部纳入，模型主要学习的仍是“ID共现关系”，而非用户真实的内容兴趣。用户多年积累的浏览、点击、加购等行为，在淘宝等平台轻松达到百万级别，但受限于延迟、存储和算力，实际部署的模型通常只能使用最近几千条，或进行粗粒度截断。

MUSE框架的诞生，正是为了系统性解决这些瓶颈。与在现有ID架构上做微调不同，MUSE的核心思想是利用多模态信息重新组织十万级行为序列，从根本上提升“终身兴趣建模”的质量与可用长度。它在架构上与单纯扩展稠密参数、提升模型表达能力的工作基本正交——这意味着无论当前使用的是经典深度神经网络还是基于Transformer的推荐大模型，都可以将MUSE视为一个可插拔的“终身兴趣建模模块”，实现收益的叠加放大。

目前，MUSE已在阿里妈妈展示广告精排模型中全量上线，具备对十万长度用户原始行为序列的建模能力，并可结合聚类等方法向百万级扩展。通过多模态嵌入的统一表示与建模，以及架构与工程的协同优化，该系统在不增加任何延迟的前提下，在线上A/B实验中实现了CTR提升12.6%的显著收益。同时，团队基于真实业务日志构建了Taobao-MM数据集并对外开放，为业界和学界在“长序列×多模态”方向的研究提供了重要基础设施。

从工业落地视角深入拆解，MUSE的创新主要体现在对终身行为建模核心痛点的精准把握与解决。当前主流架构以SIM/TWIN为代表的两阶段框架为主：第一阶段通过通用搜索单元从十万级行为中粗检索出与目标商品相关的Top-K条；第二阶段在精确搜索单元中对这些行为进行精细建模，输出终身兴趣向量。这种设计虽平衡了序列长度与实时性，但全程依赖ID特征，导致两个典型问题：长尾/过期商品因嵌入不充分而检索质量差；精细建模阶段只能学习共现关系，缺乏内容语义理解。

近年虽有工作尝试在检索阶段引入多模态信息（如MISS），但建模阶段仍沿用ID特征，导致语义融合不彻底。MUSE的关键突破在于提出了“GSU要简单，ESU要丰富+融合”的核心设计原则。基于大规模实验分析，团队得出三个工业设计洞察：多模态信息在检索阶段应保持简单高效，避免复杂计算；在建模阶段需深度融合，充分挖掘语义关联；整体架构需保证可插拔性，兼容现有系统。

具体实现上，MUSE在GSU阶段采用轻量级多模态检索，快速筛选相关行为；在ESU阶段则通过跨模态注意力机制，深度融合图像、文本与ID信息，构建丰富的用户兴趣表示。这种设计不仅提升了长尾商品的泛化能力，还使系统能识别视觉或语义相似的新商品，突破了传统ID共现的局限。

MUSE框架的推出，标志着推荐系统从“短期记忆”向“终身学习”的重要转变。它通过多模态海马体的植入，让系统真正读懂用户跨越时空的兴趣演变，为超长序列建模开辟了新路径。随着Taobao-MM数据集的开放，预计将推动更多创新研究，最终实现更智能、更个性化的推荐体验。

— 图片补充 —