MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID的建模方法也只能将其视为一串串冰冷且互不相识的代码,无法捕捉其中蕴含的丰富语义关联。这种局限性不仅导致大量有价值的信息被浪费,更使得系统难以理解用户跨越时空的完整兴趣图谱。

阿里妈妈与武汉大学研究团队近期提出的MUSE(MUltimodal SEarch-based framework)框架,正是对这一核心问题的系统性回应。MUSE不仅仅是一个新的点击率预测模型,更是一个为推荐系统设计的“多模态海马体”——它通过整合图像与文本的语义信息,重新激活并理解用户长达十万级别的历史行为序列。这一创新不仅代表了技术层面的突破,更对推荐系统长期以来的演进路线进行了深刻反思与重构。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

要理解MUSE的价值,首先需要回顾推荐系统技术演进的脉络。在搜索、广告、推荐等业务场景中,点击率建模技术大致经历了两个主要发展阶段:一方面,特征工程和ID嵌入体系不断完善,主流基于ID的建模方法已得到充分探索;另一方面,模型架构从仅关注短期行为,逐步演进到以SIM(Search-based Interest Model)为代表的“两阶段长期行为建模”框架。这种框架通过粗检索与精建模的两步策略,在保证实时性的前提下,将可用的历史行为长度扩展到万级别,带来了显著的业务收益。

然而,随着行为序列长度的持续增长,单纯在SIM类ID架构上进行局部优化的边际收益日益递减。特别是在检索精度受限的场景下,当序列从万级向十万级甚至百万级扩展时,效果提升会明显趋缓。这背后暴露出两个根本性瓶颈:第一,现有模型依赖高度稀疏的ID特征,长尾和过期商品的ID嵌入质量普遍不佳,而这些商品在用户“终身历史”中占比很高;第二,即便将十万条行为全部纳入,模型主要学习的仍是“ID共现关系”,而非用户真实的内容兴趣。用户多年积累的浏览、点击、加购等行为,在淘宝等平台轻松达到百万级别,但受限于延迟、存储和算力,实际部署的模型通常只能使用最近几千条,或进行粗粒度截断。

MUSE框架的诞生,正是为了系统性解决这些瓶颈。与在现有ID架构上做微调不同,MUSE的核心思想是利用多模态信息重新组织十万级行为序列,从根本上提升“终身兴趣建模”的质量与可用长度。它在架构上与单纯扩展稠密参数、提升模型表达能力的工作基本正交——这意味着无论当前使用的是经典深度神经网络还是基于Transformer的推荐大模型,都可以将MUSE视为一个可插拔的“终身兴趣建模模块”,实现收益的叠加放大。

目前,MUSE已在阿里妈妈展示广告精排模型中全量上线,具备对十万长度用户原始行为序列的建模能力,并可结合聚类等方法向百万级扩展。通过多模态嵌入的统一表示与建模,以及架构与工程的协同优化,该系统在不增加任何延迟的前提下,在线上A/B实验中实现了CTR提升12.6%的显著收益。同时,团队基于真实业务日志构建了Taobao-MM数据集并对外开放,为业界和学界在“长序列×多模态”方向的研究提供了重要基础设施。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

从工业落地视角深入拆解,MUSE的创新主要体现在对终身行为建模核心痛点的精准把握与解决。当前主流架构以SIM/TWIN为代表的两阶段框架为主:第一阶段通过通用搜索单元从十万级行为中粗检索出与目标商品相关的Top-K条;第二阶段在精确搜索单元中对这些行为进行精细建模,输出终身兴趣向量。这种设计虽平衡了序列长度与实时性,但全程依赖ID特征,导致两个典型问题:长尾/过期商品因嵌入不充分而检索质量差;精细建模阶段只能学习共现关系,缺乏内容语义理解。

近年虽有工作尝试在检索阶段引入多模态信息(如MISS),但建模阶段仍沿用ID特征,导致语义融合不彻底。MUSE的关键突破在于提出了“GSU要简单,ESU要丰富+融合”的核心设计原则。基于大规模实验分析,团队得出三个工业设计洞察:多模态信息在检索阶段应保持简单高效,避免复杂计算;在建模阶段需深度融合,充分挖掘语义关联;整体架构需保证可插拔性,兼容现有系统。

具体实现上,MUSE在GSU阶段采用轻量级多模态检索,快速筛选相关行为;在ESU阶段则通过跨模态注意力机制,深度融合图像、文本与ID信息,构建丰富的用户兴趣表示。这种设计不仅提升了长尾商品的泛化能力,还使系统能识别视觉或语义相似的新商品,突破了传统ID共现的局限。

MUSE框架的推出,标志着推荐系统从“短期记忆”向“终身学习”的重要转变。它通过多模态海马体的植入,让系统真正读懂用户跨越时空的兴趣演变,为超长序列建模开辟了新路径。随着Taobao-MM数据集的开放,预计将推动更多创新研究,最终实现更智能、更个性化的推荐体验。

— 图片补充 —

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4640

(0)
上一篇 2025年12月16日 上午11:41
下一篇 2025年12月16日 上午11:43

相关推荐

  • 从Sora到Seko:视频生成“不可能三角”的破局者与AI短剧工业化之路

    自Sora 2发布以来,全球科技巨头纷纷加码视频生成赛道,谷歌Veo 3.1、Runway Gen-4.5、快手Kling 2.6等迭代产品层出不穷,在控制精度、物理模拟、音画同步等维度持续突破。然而,当技术演示的光环褪去,一个根本性问题浮出水面:这些模型距离成为真正的生产力工具,究竟还有多远?答案或许隐藏在效率、成本与质量构成的“不可能三角”之中。 当前主…

    2025年12月15日
    22000
  • 从5美元切片到虚拟免疫图谱:GigaTIME如何用AI重构癌症研究的尺度与边界

    在癌症免疫研究领域,成本与样本量长期构成难以逾越的双重壁垒。传统multiplex immunofluorescence(mIF)技术虽能提供高维免疫信息,但每张切片动辄数千美元的成本、漫长的处理周期以及有限的样本覆盖,使其始终困于“昂贵稀缺”的困境。医院日常产生的H&E染色切片虽单价仅5-10美元,却长期被视作基础诊断工具,其与高维免疫图谱的潜在关…

    2025年12月13日
    15600
  • GitHub精选:4款颠覆性文档工具,从协作平台到本地AI助手

    文档协作平台 Docs 是一个功能强大的开源文档协作平台,其背景相当硬核,由法国和德国政府联合发起。该项目已在 GitHub 上获得了超过 15.5K 的 Star。 这是一个支持实时协作的文档平台,非常适合用于做笔记、撰写文档或搭建团队知识库。 编辑器采用了流行的块状编辑模式,允许用户随意拖拽段落、图片和表格。在多人同时在线编辑时,你可以实时看到队友的光标…

    2026年1月24日
    19800
  • 马斯克AI独角兽xAI人才流失加剧:创始团队近六成离职,3位华人联合创始人出走

    已有3位华人联合创始人离职。 智东西2月27日消息,今日上午,马斯克旗下AI独角兽xAI的联合创始人、前谷歌DeepMind工程师 托比·波赫伦(Toby Pohlen) 宣布离职,马斯克在其推文下留言致谢。 据不完全统计,xAI的12位创始团队成员中已有 7位 离职,另有 8位 技术团队成员也已离开。从时间线看,人才流失速度惊人,仅 2月份就有11位 员工…

    2026年2月27日
    16300
  • 从破折号到个性化:OpenAI修复ChatGPT标志性符号背后的AI写作进化论

    近日,OpenAI宣布了一项看似微小却意义深远的更新:用户现在可以通过个性化设置,让ChatGPT在生成内容时彻底告别破折号。这一调整虽不起眼,却折射出AI写作工具从“工具性”向“人性化”演进的关键转折点,也引发了关于AI生成内容识别、创作伦理与用户体验的深层思考。 破折号——这个在中文写作中常用于表示解释、转折或补充说明的标点符号,在过去两年间意外成为了A…

    2025年11月15日
    15000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注