
在人工智能技术快速演进的浪潮中,推荐系统正经历一场从“判别式”到“生成式”的范式革命。近期落幕的腾讯广告算法大赛,以“全模态生成式推荐”为核心赛题,吸引了全球30个国家、8400多名技术精英、2800余支战队参与角逐。这场历时四个月的“千团大战”,不仅是一场技术实力的较量,更成为观察下一代推荐技术发展趋势的重要窗口。冠军由来自华中科技大学、北京大学、中国科学技术大学的“Echoch”战队夺得,而中山大学的“leejt”战队和香港大学的“也许明天”战队分列二、三名。令人瞩目的是,前十名战队成员均获得了腾讯的录用意向书,这充分体现了工业界对顶尖AI人才的渴求。

本次大赛的核心价值在于其前瞻性的赛题设置——“全模态生成式推荐”。传统推荐系统长期依赖“检索-排序”的多阶段级联架构,存在召回信息不可逆损失、各阶段目标不一致、特征交互难以跨阶段共享等固有缺陷。这种“判别式”方法,主要通过点击率、停留时间等指标推断用户兴趣,往往忽略了文本、图像、视频等多模态数据的丰富语义信息。例如,一张广告图片的色彩情感、一段视频的叙事节奏,这些深层次元素在传统框架中难以有效融合,导致推荐结果停留在表面匹配,难以真正“读懂”用户内心动态变化的需求。

而“生成式推荐”代表了全新的技术范式。它要求AI系统能够基于用户历史行为序列和多模态上下文,实时生成个性化的内容推荐,实现从“被动匹配”到“主动创造”的飞跃。全模态生成式推荐则是这一范式的升级版本,它强调AI不仅要理解文本语义,还要整合、解读图像、视频、音频等多模态信息,从复杂的用户行为中深度挖掘潜在兴趣。全球科技巨头已在这一领域展开布局:Meta发布的GEM生成式广告基础模型,能够从数十亿用户交互中学习多模态数据,智能排序推荐内容;亚马逊利用生成模型理解用户购物意图,再通过大语言模型生成搜索查询匹配广告;Shopify则结合语言模型、商品理解与个性化技术,打造“会自我介绍的商品”推荐引擎。这些实践表明,生成式推荐正成为行业不可逆转的技术风向标。

本次大赛的挑战性体现在多个维度。腾讯广告提供了脱敏后的“用户全模态序列”数据,这在业内实属罕见。数据并非原始素材,而是通过大语言模型和多模态模型提取的embedding向量,每个行为包含广告ID特征及文本、图像等多模态信息。比赛核心任务是基于这些全模态历史行为数据,预测用户下一次可能交互的广告。初赛数据规模达百万级(TencentGR-1M),复赛则暴增至千万级(TencentGR-10M),涉及约1000万用户、1800万广告素材和1000万条序列数据。复赛阶段,选手还需同时预测“点击”和“转化”两种行为,其中“转化”因商业价值更高,在评估指标中被赋予2.5倍权重(点击为1),这要求模型必须精准识别高价值用户意图。

参赛团队面临四大核心难点:第一,多模态噪声与缺失问题。原始多模态特征虽提供丰富语义,但缺失率高、信噪比低,部分特征(如fid=84-86)被识别为高噪声,若不经过有效清洗,会导致训练不收敛甚至性能倒退。第二,超大规模稀疏ID带来的计算瓶颈。千万级数据若构建完整Embedding矩阵,显存需求极大,需要设计高效的模型架构和训练策略来优化复杂度。第三,冷启动问题。推理阶段会出现训练集未见的广告项目,且缺乏统计特征和完整行为上下文,模型需具备强大泛化能力,仅凭有限内容特征推断潜在受众。第四,特征种类复杂。除了6种多模态特征,还包括稀疏类别特征、数组特征、行为特征及时间特征,如何进行有效的特征工程成为关键。

冠军战队Echoch的方案在多个层面实现了创新。他们聚焦于“生成式行为条件化建模”这一核心挑战,针对用户行为序列杂乱无章的特点,巧妙地将行为“条件化”(Action-Conditioned)。由于用户行为呈现长短周期特性,团队构建了三级会话体系,并补全了时间感知特征。面对点击与转化行为可能存在的冲突,他们重构了PinRe机制,确保模型能够平衡不同目标。在特征工程方面,Echoch对多模态特征进行了深度清洗和增强,有效降低了噪声影响。模型架构上,他们采用了高效的注意力机制和轻量化设计,以应对大规模稀疏ID的计算压力。此外,团队还创新性地引入了语义ID生成技术,提升了对新项目的泛化能力,并通过Muon优化策略加速训练收敛。这些技术突破,使得Echoch的方案在HitRate和NDCG等关键指标上表现卓越,最终脱颖而出。

本次大赛的深远意义在于,它揭示了推荐系统技术演进的明确路径:全模态生成式推荐正成为下一代智能推荐的核心引擎。高校学生的最新方案已与工业界实践没有明显代差,这反映了AI人才培养与技术前沿的紧密接轨。大赛不仅为行业选拔了顶尖人才,更通过“真实场景+前沿方向”的赛题设计,推动了生成式推荐与多模态融合技术的探索与突破。随着交互式AI入口的普及,用户从“搜索”转向“问AI”,流量迁移必然发生。具备多轮交互、长记忆能力的生成式推荐系统,将更精准地捕捉用户动态需求,实现从“千人一面”到“千人千面”的个性化体验升级。这场技术竞赛,不仅是一场学术与工业的对话,更是AI驱动产业变革的生动缩影。

展望未来,全模态生成式推荐将在广告、电商、内容平台等领域发挥更大价值。它要求AI系统具备深度的多模态理解能力、实时的序列生成能力和强大的泛化能力。技术挑战依然存在:如何更有效地融合异构模态信息、如何降低大规模模型的计算成本、如何保障生成内容的可靠性与安全性等。但本次大赛已证明,产学研协同创新能够加速技术突破。冠军方案中的行为条件化建模、语义ID生成、Muon优化等思路,为行业提供了宝贵参考。随着算法、算力、数据的持续进步,生成式推荐有望彻底改变人机交互方式,让AI不仅“看懂”世界,更能“创造”价值,真正成为懂用户、会思考的智能伙伴。

总之,腾讯广告算法大赛不仅是一场技术比拼,更是一次产业风向的预演。它标志着推荐系统正式告别“拼贴式”调参的旧时代,迈入“端到端生成”的新纪元。全模态生成式推荐作为AI技术融合的前沿领域,将推动广告营销、内容分发、个性化服务等场景的深刻变革。而年轻一代技术精英的涌现,让我们有理由相信,AI创新的未来充满无限可能。



— 图片补充 —





关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/10374
