MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID的建模方法也只能将其视为一串串冰冷且互不相识的代码,无法捕捉其中蕴含的丰富语义关联。这种局限性不仅导致大量有价值的信息被浪费,更使得系统难以理解用户跨越时空的完整兴趣图谱。

阿里妈妈与武汉大学研究团队近期提出的MUSE(MUltimodal SEarch-based framework)框架,正是对这一核心问题的系统性回应。MUSE不仅仅是一个新的点击率预测模型,更是一个为推荐系统设计的“多模态海马体”——它通过整合图像与文本的语义信息,重新激活并理解用户长达十万级别的历史行为序列。这一创新不仅代表了技术层面的突破,更对推荐系统长期以来的演进路线进行了深刻反思与重构。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

要理解MUSE的价值,首先需要回顾推荐系统技术演进的脉络。在搜索、广告、推荐等业务场景中,点击率建模技术大致经历了两个主要发展阶段:一方面,特征工程和ID嵌入体系不断完善,主流基于ID的建模方法已得到充分探索;另一方面,模型架构从仅关注短期行为,逐步演进到以SIM(Search-based Interest Model)为代表的“两阶段长期行为建模”框架。这种框架通过粗检索与精建模的两步策略,在保证实时性的前提下,将可用的历史行为长度扩展到万级别,带来了显著的业务收益。

然而,随着行为序列长度的持续增长,单纯在SIM类ID架构上进行局部优化的边际收益日益递减。特别是在检索精度受限的场景下,当序列从万级向十万级甚至百万级扩展时,效果提升会明显趋缓。这背后暴露出两个根本性瓶颈:第一,现有模型依赖高度稀疏的ID特征,长尾和过期商品的ID嵌入质量普遍不佳,而这些商品在用户“终身历史”中占比很高;第二,即便将十万条行为全部纳入,模型主要学习的仍是“ID共现关系”,而非用户真实的内容兴趣。用户多年积累的浏览、点击、加购等行为,在淘宝等平台轻松达到百万级别,但受限于延迟、存储和算力,实际部署的模型通常只能使用最近几千条,或进行粗粒度截断。

MUSE框架的诞生,正是为了系统性解决这些瓶颈。与在现有ID架构上做微调不同,MUSE的核心思想是利用多模态信息重新组织十万级行为序列,从根本上提升“终身兴趣建模”的质量与可用长度。它在架构上与单纯扩展稠密参数、提升模型表达能力的工作基本正交——这意味着无论当前使用的是经典深度神经网络还是基于Transformer的推荐大模型,都可以将MUSE视为一个可插拔的“终身兴趣建模模块”,实现收益的叠加放大。

目前,MUSE已在阿里妈妈展示广告精排模型中全量上线,具备对十万长度用户原始行为序列的建模能力,并可结合聚类等方法向百万级扩展。通过多模态嵌入的统一表示与建模,以及架构与工程的协同优化,该系统在不增加任何延迟的前提下,在线上A/B实验中实现了CTR提升12.6%的显著收益。同时,团队基于真实业务日志构建了Taobao-MM数据集并对外开放,为业界和学界在“长序列×多模态”方向的研究提供了重要基础设施。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

从工业落地视角深入拆解,MUSE的创新主要体现在对终身行为建模核心痛点的精准把握与解决。当前主流架构以SIM/TWIN为代表的两阶段框架为主:第一阶段通过通用搜索单元从十万级行为中粗检索出与目标商品相关的Top-K条;第二阶段在精确搜索单元中对这些行为进行精细建模,输出终身兴趣向量。这种设计虽平衡了序列长度与实时性,但全程依赖ID特征,导致两个典型问题:长尾/过期商品因嵌入不充分而检索质量差;精细建模阶段只能学习共现关系,缺乏内容语义理解。

近年虽有工作尝试在检索阶段引入多模态信息(如MISS),但建模阶段仍沿用ID特征,导致语义融合不彻底。MUSE的关键突破在于提出了“GSU要简单,ESU要丰富+融合”的核心设计原则。基于大规模实验分析,团队得出三个工业设计洞察:多模态信息在检索阶段应保持简单高效,避免复杂计算;在建模阶段需深度融合,充分挖掘语义关联;整体架构需保证可插拔性,兼容现有系统。

具体实现上,MUSE在GSU阶段采用轻量级多模态检索,快速筛选相关行为;在ESU阶段则通过跨模态注意力机制,深度融合图像、文本与ID信息,构建丰富的用户兴趣表示。这种设计不仅提升了长尾商品的泛化能力,还使系统能识别视觉或语义相似的新商品,突破了传统ID共现的局限。

MUSE框架的推出,标志着推荐系统从“短期记忆”向“终身学习”的重要转变。它通过多模态海马体的植入,让系统真正读懂用户跨越时空的兴趣演变,为超长序列建模开辟了新路径。随着Taobao-MM数据集的开放,预计将推动更多创新研究,最终实现更智能、更个性化的推荐体验。

— 图片补充 —

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4640

(0)
上一篇 2025年12月16日 上午11:41
下一篇 2025年12月16日 上午11:43

相关推荐

  • 从指令到协作:基于Anthropic研究的10个高效提示工程技巧深度解析

    在人工智能交互领域,提示工程已从简单的指令输入演变为一门精细的协作艺术。Greg Isenberg近期发布的深度视频《我用错了Claude》基于Anthropic官方研究,系统拆解了10个能显著提升AI模型效率的技巧,这些方法不仅适用于Claude,对各类大语言模型均有普适价值。本文将从技术原理、应用场景和思维转变三个维度,对这些技巧进行详细分析。 这些技巧…

    2025年12月14日
    35800
  • 谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

    一场席卷市场的震荡,意外牵出了一桩学术争议。 本周五晚,谷歌研究团队的一篇论文陷入学术不端指控,成为AI社区关注的焦点。苏黎世联邦理工学院(ETH Zurich)的博士后研究员高健扬发文指出,谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在…

    2026年3月29日
    73500
  • OpenAI收购科技脱口秀TBPN:加速AI全球交流,硅谷决策层最爱播客

    OpenAI收购科技播客TBPN,旨在构建AI讨论新平台 刚刚,OpenAI宣布收购科技播客TBPN,目标是加速全球围绕人工智能的交流与讨论。 TBPN由Jordi Hays和John Coogan主持,节目形式为每日三小时的长播客对话,以节奏快、风格独特著称。尽管其在社交平台上的粉丝量(推特约32.1万,YouTube约5.91万)并非顶尖,但其主要受众被…

    2026年4月3日
    26400
  • 2025人工智能年度榜单深度解析:评选机制、行业趋势与未来展望

    随着人工智能技术从实验室走向产业化,行业竞争格局日益清晰,权威评选成为衡量企业实力、产品创新与人物贡献的重要标尺。量子位主办的「2025人工智能年度榜单」已进入第八个年头,这不仅是一个简单的奖项申报活动,更是对中国AI产业发展脉络的年度梳理与前瞻性洞察。 从评选维度来看,本届榜单延续了企业、产品、人物三大核心板块,但细分为五类奖项,体现了对产业生态的精细化观…

    2025年11月13日
    32000
  • Qwen3.6-27B重磅发布:27B参数实现代码智能体突破,稠密架构部署更友好

    通义千问团队于2026年4月22日发布了 Qwen3.6-27B,这是 Qwen3.6 系列的第二款开源模型,也是该系列迄今唯一的稠密架构(Dense)开源版本。模型权重已上传至 Hugging Face 和 ModelScope,同时可通过 Qwen Studio 在线体验,阿里云百炼 API 接入即将开放。 Qwen3.6-27B 是什么?与前代有何不同…

    2026年4月22日
    1.0K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注