当推荐系统遇上大模型范式,广告变现的天花板被再次打破。快手提出 GR4AD,作为国内生成式推荐在大规模广告场景下的首次全量落地,实现广告收入提升 4.2%,服务 4 亿 + 用户。

一、引言:“推荐该怎么做”的新范式
过去十年,深度学习推荐模型(DLRM)几乎统治了整个工业界的推荐系统——从召回到排序,从特征交叉到序列建模,它们构建了一套成熟而稳固的技术栈。然而,当大语言模型(LLM)的浪潮席卷而来,一个根本性的问题被提出:能否像生成文本一样,直接“生成”推荐结果?
这正是生成式推荐(Generative Recommendation)的核心思想。以 TIGER、OneRec 为代表的一系列工作,已在自然推荐场景中验证了这一范式的可行性。但当战场转移至大规模广告系统——一个对时延、收益和商业价值均有极致要求的领域——挑战便远非如此直接。
快手的这篇论文,正是针对这一工业级难题给出的答卷。他们提出了 GR4AD(Generative Recommendation for ADvertising),一个在表征、学习、服务三大层面进行协同设计的生成式广告推荐系统,并已全量部署于快手广告平台,服务超过 4 亿用户。
二、问题与挑战:广告场景下的三大挑战
论文开篇明确指出:直接将 LLM 的训练和推理范式迁移到广告推荐上是行不通的。具体而言,广告场景存在三个独有的核心挑战:
挑战一:广告物料的 Token 化——多元信息的统一编码
广告并非普通的短视频。一条广告背后融合了视频创意、商品详情、广告主元数据等多模态、多粒度信息。更为复杂的是,平台还包含转化类型、广告账户等关键业务信号,这些信号具备强烈的商业价值,但几乎不含“语义内容”。如何为广告物料设计一套既能捕获语义、又能编码业务信息的统一 Token 体系?
挑战二:学习范式——面向商业价值的列表级优化
广告推荐的优化目标并非简单地“预测用户点击”,而是要在 eCPM 排序、NDCG 等列表级指标下最大化商业价值。现有的生成式推荐方法大多沿用 LLM 的分阶段训练方式,不完全适配大规模推荐场景的持续在线学习,且缺乏面向排序的列表级学习设计。
挑战三:实时服务——多候选生成的算力困局
不同于 LLM 聊天场景中“生成单条回复、可容忍较高延迟”的模式,广告系统需要在极高 QPS 和极低延迟(<100ms)下,通过 Beam Search 同时生成大量高质量候选。这是一个与标准 LLM 推理截然不同的优化问题。
三、方法:全链路协同设计的破局之道
GR4AD 的方法论可概括为“表征-学习-推理”三位一体的推荐原生设计。

3.1 统一广告语义 ID(UA-SID):给广告一个“身份证”
核心思想:使用一个端到端微调的多模态大模型(MLLM)为每条广告生成统一嵌入,再通过量化方法将其编码为离散的 Semantic ID。

第一步:统一广告嵌入(UAE)
* 指令微调(Instruction Tuning):针对快手广告的 6 种典型形态(如直播、商品、达人推广),设计了 6 套提示模板,引导 MLLM 从不同视角理解广告内容。例如,对直播类广告,引导模型分析主播画像和地域特征;对外部投放广告,则聚焦产品行业和品牌信息。
* 共现学习(Co-occurrence Learning):用户行为中的共现关系蕴含了丰富的协同信号。论文使用 Swing 方法估计物料共现强度,并采用 InfoNCE 对比学习目标将其注入表征。

第二步:MGMR RQ-Kmeans 量化
这是 UA-SID 的关键创新。论文提出了多粒度-多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:
* 多分辨率(MR):低层级使用更大的码本捕获主导语义因子,高层级用较小码本建模低熵残差,有效提升码本利用率。
* 多粒度(MG):在最后一层使用基于非语义特征的哈希映射替代向量量化——将转化类型、账户 ID 等业务信号直接编码进 SID,一举解决“相同内容、不同投放策略”导致的 SID 碰撞问题。
最终,每个广告物料被映射为一个离散的 UA-SID 序列。

3.2 LazyAR:懒惰解码器的大智慧
生成式推荐在推理时需要通过 Beam Search 生成多个候选 SID 序列。标准自回归解码要求每一层都依赖上一步的输出,这在 Beam 数很大时会造成巨大的计算瓶颈。
论文的一个关键观察是:第一层 SID 最难学、损失最大,但它的 Beam 只有 1(从 BOS 开始);后续层级更容易预测,Beam 却呈指数级膨胀。大部分计算被浪费在了“简单的事情”上。

LazyAR 的核心操作:将对上一步 token 的依赖“延迟”到中间某一层(第 K 层)注入:
* 前 K 层(并行层):不依赖上一步 token,仅基于位置编码和上下文 X 进行计算,所有层级和所有 Beam 可以并行计算并共享。
* 后 L-K 层(自回归层):注入上一步 SID 嵌入后进行标准自回归解码。
为什么 LazyAR 有效?
1. 第一层 SID 的解码过程完全不受影响(从 BOS 经过全部 L 层)。
2. 前 K 层在潜空间中进行推理,能编码关于候选 token 的有用信号。
3. 引入 MTP 辅助损失,强制前 K 层即使没有上一步 token 也能学到足够信息。
4. K 是可调超参,提供灵活的精度-效率权衡。实验中,
在保持推荐质量的同时将推理吞吐量翻倍。
论文特别指出:这个设计是推荐原生的,不适用于标准 LLM 解码——因为 LLM 解码通常不用 Beam Search,且后续 token 的预测难度不一定下降。
3.3 价值感知的监督学习(VSL)
在广告场景中,不同样本的商业价值差异显著。VSL 围绕“价值感知”做了三件事:
① SID + eCPM 联合预测:在标准 SID 交叉熵损失之外,将 eCPM 离散化为桶并追加为额外的预测 token。
② 价值感知样本加权:每个样本的权重
,高广告价值用户和深度交互行为(如购买)获得更高权重。
③ MTP 辅助损失:配合 LazyAR,强制前 K 层并行解码的表征质量。
最终 VSL 目标:
3.4 排序引导的强化学习(RSPO):从“学分布”到“优排序”
VSL 能拟合历史数据分布,但它不直接优化下游排序目标,也不支持对未知标签分布的探索。论文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一个面向列表级 NDCG 优化的 RL 算法。
RSPO 的核心 loss:
其中
遵循 Lambda 框架,论文证明了 RSPO 是 NDCGcost 的上界,从理论上保证了对排序指标的直接优化。
几个精妙的工程设计:
四、线上部署:工业级系统的全闭环设计
GR4AD(0.16B 参数)已在快手广告系统中完成全量部署,构建了从“奖励估计 → 在线学习 → 实时索引 → 实时服务”的完整工业闭环。

4.1 四大核心模块
- 奖励系统:训练独立的奖励模型,对GR4AD生成的候选广告进行eCPM评分。该系统在放宽延迟约束的环境下进行更广的Beam搜索探索,为强化学习训练提供高质量信号。
- 在线学习模块:实时构建VSL和RL两种训练信号,进行持续的小批量参数更新,并将更新后的模型参数实时推送至推理服务端。
- 实时索引模块:采用SID替代传统的嵌入向量索引。新物料到达时,仅需计算其UA-SID并更新“UA-SID ↔ 物料ID”的双向索引,即可实现秒级生效,极大改善了冷启动物料的覆盖率和时效性。
- 实时服务引擎:负责处理用户请求,并返回经过排序的广告列表。
4.2 推理效率优化:动态调度与工程加速
动态Beam服务是提升推理效率的核心,包含两个关键机制:
* 动态Beam宽度:采用递增的Beam调度策略(如128→256→512),替代传统的固定宽度方案(如512→512→512),在保证最终候选集质量的同时,显著削减了中间层的计算开销。
* 流量感知自适应Beam搜索:根据实时查询率自动调整Beam规模——在流量低峰期增大Beam以提升推荐质量,在流量高峰期收缩Beam以保障服务延迟和吞吐量。
此外,系统还集成了一系列工程优化技术:
* Beam共享KV缓存:将Beam组织从批次维度转移至序列维度,实现KV缓存在多个Beam间的共享,显著提升了内存访问效率(QPS提升212.5%)。
* TopK预裁剪:先并行选取每个Beam内的Top-K候选,再对聚合后的候选集进行全局Top-K选择,有效缩减搜索空间并保证准确性(QPS提升184.8%)。
* FP8低精度推理(QPS提升50.3%)。
* 短TTL结果缓存(QPS提升27.8%)。
最终,系统实现了单卡(L20 GPU)延迟低于100毫秒、QPS超过500的性能指标。
五、实验效果:广告收入与推理性能的双重提升
5.1 总体性能与消融实验

关键实验发现:
* RSPO是带来增益最大的单一组件,其效果显著优于DPO和GRPO,验证了列表级强化学习在广告场景中的不可替代性。
* LazyAR以极小的精度代价换取了吞吐量的翻倍提升,是实际部署的关键使能技术,其表现优于DeepSeek-MTP。
* 动态Beam服务在不损失收益的前提下进一步提升了效率,其中的流量感知机制在低峰期还能反向提升广告收入。
5.2 规模扩展定律

- 模型规模方向:模型参数量从0.03B增长至0.32B,广告收入提升从+2.13%单调增长至+4.43%,训练损失持续下降,证明了生成式广告推荐符合规模扩展定律。
- 推理规模方向:Beam宽度从128增加至1024,收入提升从+2.33%增长至+4.21%。这表明更强的推理时搜索能力能进一步释放模型潜力,与当前大语言模型领域“测试时扩展”的趋势相呼应。
5.3 UA-SID质量评估

在嵌入质量评估中,经过指令微调与共现学习的统一广告嵌入模型,其R@1召回率达到0.896,远超基线模型QARM(0.541)和原始Qwen3-VL-7B模型(0.769)。混合高斯多分辨率量化技术将SID碰撞率从85.44%大幅降低至18.26%,码本利用率提升了3倍以上。
5.4 商业指标全面优化
GR4AD上线后,取得了以下关键商业成果:
* 平台商业化广告收入提升 4.2%+
* 中小广告主投放量提升 17.5%
* 广告转化率提升 10.17%
* 低活跃用户转化率提升 7.28%
基于内容的SID带来的更强泛化能力,以及实时索引对冷启动物料的更好支持,实现了平台、广告主与用户的三方共赢。
六、总结与展望
GR4AD工作的价值,不仅在于达成了4.2%的收入提升,更在于系统性地探索并验证了生成式推荐在广告这一核心工业场景的可行路径。其核心启示在于:不应简单照搬大语言模型范式,而需进行推荐原生的设计。
- 表征层面:Token化需融合业务信号,而非仅关注内容语义(UA-SID + MGMR)。
- 训练层面:需进行价值感知的列表级优化,而非仅做单点概率生成(VSL + RSPO)。
- 推理层面:需针对推荐“短序列、多候选、Beam搜索”的特性进行专门设计,而非套用通用加速技巧(LazyAR + DBS)。
- 系统层面:需构建实时索引、在线学习与闭环反馈的全链路系统,而非依赖离线批处理。
GR4AD是生成式推荐迈向广告工业核心场景的一个重要里程碑。快手通过超4亿用户的真实流量验证了这条技术路径的可行性,预计将推动更多广告平台跟进这一技术范式。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28507


