MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID的建模方法也只能将其视为一串串冰冷且互不相识的代码,无法捕捉其中蕴含的丰富语义关联。这种局限性不仅导致大量有价值的信息被浪费,更使得系统难以理解用户跨越时空的完整兴趣图谱。

阿里妈妈与武汉大学研究团队近期提出的MUSE(MUltimodal SEarch-based framework)框架,正是对这一核心问题的系统性回应。MUSE不仅仅是一个新的点击率预测模型,更是一个为推荐系统设计的“多模态海马体”——它通过整合图像与文本的语义信息,重新激活并理解用户长达十万级别的历史行为序列。这一创新不仅代表了技术层面的突破,更对推荐系统长期以来的演进路线进行了深刻反思与重构。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

要理解MUSE的价值,首先需要回顾推荐系统技术演进的脉络。在搜索、广告、推荐等业务场景中,点击率建模技术大致经历了两个主要发展阶段:一方面,特征工程和ID嵌入体系不断完善,主流基于ID的建模方法已得到充分探索;另一方面,模型架构从仅关注短期行为,逐步演进到以SIM(Search-based Interest Model)为代表的“两阶段长期行为建模”框架。这种框架通过粗检索与精建模的两步策略,在保证实时性的前提下,将可用的历史行为长度扩展到万级别,带来了显著的业务收益。

然而,随着行为序列长度的持续增长,单纯在SIM类ID架构上进行局部优化的边际收益日益递减。特别是在检索精度受限的场景下,当序列从万级向十万级甚至百万级扩展时,效果提升会明显趋缓。这背后暴露出两个根本性瓶颈:第一,现有模型依赖高度稀疏的ID特征,长尾和过期商品的ID嵌入质量普遍不佳,而这些商品在用户“终身历史”中占比很高;第二,即便将十万条行为全部纳入,模型主要学习的仍是“ID共现关系”,而非用户真实的内容兴趣。用户多年积累的浏览、点击、加购等行为,在淘宝等平台轻松达到百万级别,但受限于延迟、存储和算力,实际部署的模型通常只能使用最近几千条,或进行粗粒度截断。

MUSE框架的诞生,正是为了系统性解决这些瓶颈。与在现有ID架构上做微调不同,MUSE的核心思想是利用多模态信息重新组织十万级行为序列,从根本上提升“终身兴趣建模”的质量与可用长度。它在架构上与单纯扩展稠密参数、提升模型表达能力的工作基本正交——这意味着无论当前使用的是经典深度神经网络还是基于Transformer的推荐大模型,都可以将MUSE视为一个可插拔的“终身兴趣建模模块”,实现收益的叠加放大。

目前,MUSE已在阿里妈妈展示广告精排模型中全量上线,具备对十万长度用户原始行为序列的建模能力,并可结合聚类等方法向百万级扩展。通过多模态嵌入的统一表示与建模,以及架构与工程的协同优化,该系统在不增加任何延迟的前提下,在线上A/B实验中实现了CTR提升12.6%的显著收益。同时,团队基于真实业务日志构建了Taobao-MM数据集并对外开放,为业界和学界在“长序列×多模态”方向的研究提供了重要基础设施。

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

从工业落地视角深入拆解,MUSE的创新主要体现在对终身行为建模核心痛点的精准把握与解决。当前主流架构以SIM/TWIN为代表的两阶段框架为主:第一阶段通过通用搜索单元从十万级行为中粗检索出与目标商品相关的Top-K条;第二阶段在精确搜索单元中对这些行为进行精细建模,输出终身兴趣向量。这种设计虽平衡了序列长度与实时性,但全程依赖ID特征,导致两个典型问题:长尾/过期商品因嵌入不充分而检索质量差;精细建模阶段只能学习共现关系,缺乏内容语义理解。

近年虽有工作尝试在检索阶段引入多模态信息(如MISS),但建模阶段仍沿用ID特征,导致语义融合不彻底。MUSE的关键突破在于提出了“GSU要简单,ESU要丰富+融合”的核心设计原则。基于大规模实验分析,团队得出三个工业设计洞察:多模态信息在检索阶段应保持简单高效,避免复杂计算;在建模阶段需深度融合,充分挖掘语义关联;整体架构需保证可插拔性,兼容现有系统。

具体实现上,MUSE在GSU阶段采用轻量级多模态检索,快速筛选相关行为;在ESU阶段则通过跨模态注意力机制,深度融合图像、文本与ID信息,构建丰富的用户兴趣表示。这种设计不仅提升了长尾商品的泛化能力,还使系统能识别视觉或语义相似的新商品,突破了传统ID共现的局限。

MUSE框架的推出,标志着推荐系统从“短期记忆”向“终身学习”的重要转变。它通过多模态海马体的植入,让系统真正读懂用户跨越时空的兴趣演变,为超长序列建模开辟了新路径。随着Taobao-MM数据集的开放,预计将推动更多创新研究,最终实现更智能、更个性化的推荐体验。

— 图片补充 —

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4640

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • 从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界

    在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…

    2025年12月10日
    100
  • 从Vibe Coding到工程智能体:InfCode如何突破企业级AI编程的语义定位瓶颈

    人工智能编程正经历从概念验证到工程落地的关键转型。自Andrej Karpathy提出“Vibe Coding”概念以来,通过自然语言提示直接生成可运行代码的能力确实展现了AI编程的潜力,但这种基于“感觉”的编程模式在企业级复杂工程场景中逐渐暴露出局限性。 Vibe Coding的核心优势在于快速原型开发,开发者仅需一句提示词如“编写一个Python代码,可…

    2025年12月5日
    200
  • 《面向人工智能的数据标注合规指南》:数据标注合规标准化进程的里程碑与产业影响分析

    随着人工智能技术的快速发展和规模化应用,数据标注作为模型训练的基础环节,其合规性已成为影响AI产业健康发展的关键因素。近日,由中国电子商会归口管理、智合标准中心组织编制、中移互联网有限公司牵头起草的全国首部AI数据标注合规标准《面向人工智能的数据标注合规指南》团体标准已完成多轮研讨和修订,即将进入报批环节。该标准吸引了来自人工智能、数据标注领域的50余家单位…

    2025年12月4日
    300
  • Kosmos:结构化世界模型驱动的全自动AI科学家,跨学科科研生产力革命

    在人工智能技术不断渗透科研领域的背景下,一款名为Kosmos的AI科学家系统引发了广泛关注。该系统通过结构化世界模型实现了从文献检索、数据分析到论文撰写的全自动化流程,无需人类干预即可完成复杂科研任务。本文将从技术架构、跨学科应用、性能对比及局限性等方面进行深入分析,探讨其对科研范式的潜在影响。 Kosmos的核心创新在于其结构化世界模型,该模型为数据分析与…

    2025年11月6日
    100
  • 美团LongCat-Flash-Omni:全模态实时交互开源模型的架构突破与产业影响

    在AI模型竞争日趋白热化的当下,美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点,不仅刷新了开源多模态模型的性能基准,更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型,成功实现了多模态能力与推理效率的平衡,标志着开源大模型在实用化道路上迈出了关键一步。 从性能表现来看,LongCa…

    2025年11月3日
    100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注