快手OneSearch-V2：潜空间推理增强，电商搜索新突破

针对生成式检索在电商搜索场景中面临的复杂查询理解不足、用户潜在意图挖掘困难、奖励系统易过拟合历史窄偏好等实际落地瓶颈，快手技术团队在已大规模部署的工业级生成式搜索框架 OneSearch 基础上，发布了一项系统性升级的研究论文，正式推出新一代框架 OneSearch-V2。

该论文详细阐述了以潜空间推理增强与自蒸馏训练为核心的端到端演进方案，创新性地提出了思维增强的复杂查询理解、推理内化的自蒸馏训练流程，以及基于真实用户行为反馈的偏好对齐优化体系的原生设计。

目前，该系统已在快手电商搜索平台全面上线。在不增加任何推理成本与服务时延的前提下，实现了商品点击率提升 3.98%、买家数提升 2.07%、订单量提升 2.11% 的显著业务收益，并有效缓解了搜索系统长期存在的信息茧房与长尾稀疏问题。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

论文标题：《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
论文地址：https://arxiv.org/abs/2603.24422
代码地址：https://github.com/benchen4395/onesearch-family

一、背景

1.1 OneSearch V1 回顾与成果

OneSearch V1 通过端到端生成式架构，在显著降低推理成本的同时，大幅提升了中高频查询的在线效果与转化效率。尤其在中高频查询和中长尾用户偏好的推理能力方面，实现了较为显著的提升（OneSearch：电商搜索端到端生成式建模）。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

1.2 V1 仍存在的核心瓶颈

随着用户偏好日趋多样化、搜索查询日益复杂，我们识别出制约 OneSearch 进一步提升的三个关键限制：

复杂查询的理解不足：大量短查询未指定具体商品（如“室内健身器材”可能是跑步机或哑铃，但不应是山地车），长尾查询则存在显著词汇差异（如否定型“缓解疲劳，不要保健品”或问答型“游泳需要准备什么”）。这类复杂查询在平台占总页面浏览量约 1/3，却仅贡献 8% 的转化，V1 难以处理这种泛化或弱化意图。
用户上下文的个性化意图推理不足：模型过度依赖历史共现模式和日志拟合，导致浅层匹配。例如，对花粉过敏的用户搜索“当季鲜花”，模型无法推理出应规避致敏品种。
脆弱的奖励系统与分布偏差：多阶段更新的混合排序框架（依赖独立奖励模型）更新迟缓，易受采样偏差影响，过拟合于狭窄的历史偏好。

1.3 OneSearch V2 的核心思路

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

针对上述瓶颈，OneSearch V2 提出了基于自蒸馏隐式推理增强（Latent Reasoning Enhanced Self-distillation）框架：

思维增强的查询理解（Thought-augmented Query Understanding）：利用大语言模型生成紧凑的关键词级思维链（keyword-based CoT），在提升信息密度的同时避免长文本开销，作为监督微调对齐语料和后续蒸馏的“教师端”特权输入。
推理内化的自蒸馏（Reasoning-internalized Self-distillation）：无需引入额外参数，通过信息不对称的自蒸馏机制，将显式推理能力直接编码进模型权重中，转化为“直觉”。
行为反馈偏好对齐（Behavior Feedback Preference Alignment）：抛弃独立奖励模型，引入直接用户交互反馈。提出基于令牌位置边际优势（TPMA-GRPO），针对 SID 序列的层次因果结构，实现基于生成位置的精准信用分配。

二、实验方案

2.1 编码方案（沿用 V1）

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

OneSearch-V2 沿用了 V1 的编码方案 KHQE+RQ-OPQ。

近期研究将 SID 编码方法分为单模态与多模态两类。不同于推荐系统，搜索引擎需在统一分词体系下对齐查询与商品，保障语义约束的鲁棒性，这对单模态查询与多模态商品（含文本、多视角图片、讲解视频）间的表征差异提出精细建模要求。V1 采用 Qwen-VL 从多源信息中提取商品核心关键词，构建统一文本表征；其他方法则尝试联合输入或多模态分别编码后拼接。但多图易呈现互斥属性（如连衣裙不同颜色），冗余属性（如 T 恤纽扣数量/位置）易引入偏差，导致关键属性被淹没。为此，V2 开展了大量实验，系统评估不同编码范式在电商生成式搜索中的适用性。

为全面比较多模态与单模态嵌入的效果，我们在多种模型配置下开展了对比实验，包括：

仅使用文本描述的单模态编码；
多模态编码，涵盖统一编码（联合处理）和分别编码后拼接两种方式；
OneSearch 的关键词层次量化方案 KHQE（使用单模态表征多模态信息）。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

为简化实验，我们收集了约 500 万条线上点击的 <查询, 商品> 对，商品输入仅含标题和两张主图；所有嵌入统一采用 RQ-OPQ 分词。结果表明：单模态方法显著优于多模态（如小规模 bge-base 优于大规模 Qwen3-VL），主因跨模态表征差异与冗余属性削弱了多模态编码有效性；“先分离后拼接”策略表现最差，进一步验证了这一挑战；KHQE 效果最佳，兼具强关键属性提取与层级表征能力，且模型轻量，支持实时查询处理，在性能与效率间取得良好平衡。结论指出：电商搜索编码需聚焦两大关键——缓解跨模态差异、增强关键信息。

2.2 思维增强的查询理解（Thought-augmented Query Understanding）

2.2.1 动机

电商搜索引擎日均处理海量查询，用户意图复杂：头部查询（如“室内健身器材”）表达模糊、意图发散，导致候选范围过宽；尾部查询类型多样（问答/推荐/排行榜/知识/否定/平替等），语义约束强、行为信号稀疏，意图识别与商品匹配难度高。在快手商城，此类复杂查询占页面浏览量约 1/3，但转化率仅 8%，效率偏低。OneSearch-V1 通过表征对齐与增强缓解语义鸿沟，但点击率增益呈“倒 U 型”，头部与尾部提升有限——头部瓶颈在于“检索哪个”，尾部在于“能检索什么”。显式思维链虽提升可解释性，但输出冗长、小模型难复现；SID 与文本思维链异构性强；且电商更需聚焦意图对齐的关键词，而非全链路推理。亟需轻量、高效、意图导向的语义增强方法。

2.2.2 思维增强流程

我们基于 Qwen3-32B 在语义约束下生成精准思维链，提取高信息密度关键词（确保意图、类目、属性一致），作为训练阶段的补充语义信号，提升查询意图识别与用户偏好校准；同时以关键词驱动思维链，显著降低推理开销。整体采用三步推理流程。

第一步，查询分析。包含四个组成部分：

意图理解，识别主要检索目标（即商品、店铺或直播主播）；
类目识别，按从粗到细的粒度进行层级类目匹配；

2.2.2 核心功能模块

属性识别：从用户输入的查询词（query）中精准抽取属性类别及其对应的具体数值。
话题推荐：预测并生成能够满足用户潜在需求的候选话题。

Step 2：关键词提取

针对带有商品检索意图的 query，系统会从分析结果中提取关键词。此过程会施加意图、类目与属性的一致性约束。随后，通过同义词合并与冗余信息剔除，最终按照商品的热度降序输出结果。对于其他意图的 query，则由专用引擎处理，此时主流程（Pipeline）直接终止。

Step 3：偏好校准

系统基于用户画像与历史行为（如搜索词、交互过的商品序列），利用大语言模型（LLM）动态感知用户偏好。据此，对关键词集合进行个性化的过滤或增补。在训练阶段，会将当前会话中已交互的商品作为强信号注入模型，确保与真实标注商品关联的关键词得以保留或被显式引入。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

2.2.3 部署方式

上述第二步和第三步用于构建 < query, keywords > 和 < query, user, keywords > 训练语料。我们设计了 4 个思维链（CoT）任务，并将其融入 OneSearch-V1 的有监督微调（SFT）第一阶段（语义对齐）。这使得模型能够超越简单的日志学习，深入理解 query 知识，并结合用户偏好挖掘其感兴趣的商品话题，从而提升复杂性与个性化推理能力。

在线部署时，由关键词驱动的 CoT 生成过程采用异步执行，其结果用于流式训练与近线推理。对于相同的 query 或 < query, user > 组合，结果可以复用缓存，这能显著降低算力开销并实现零延迟。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

注：符号 “+” 表示在前一行模型基础上累加新组件（逐步叠加），而 “+” 表示在 CoT tasks 完成后的模型上单独添加组件。

实验结果显示：在模型规模相当时，单模态方案显著优于多模态方案。即便规模较小的 bge-base 模型，其表现也优于更大规模的 Qwen3-VL 模型。这主要源于跨模态表征差异与冗余属性的存在。采用“先分离后拼接”的策略表现最差，进一步印证了上述挑战。KHQE 取得了最佳结果，展现出卓越的核心属性提取与层级表征能力。其较小的模型规模还支持实时处理 query，在性能与效率之间达成了良好平衡。这也验证了电商搜索编码的两个关键点：缓解跨模态差异与增强关键信息。

2.3 Reasoning-internalized Self-distillation（推理内化的自蒸馏）

2.3.1 动机：保留推理增益，消除推理开销

直觉方案（OneSearch 先生成推理关键词，再生成 SID）由于离散的 SID 与文本关键词表征的异质性较强，小模型难以建模。实验表明，显式的 CoT 推理反而会显著降低性能，甚至不如基线方案。另一种替代方案（将关键词作为 query 的补充信息 + RAG）虽然能提升检索与排序效果，但需要在线调用 thought-augmented query understanding 模块，这会带来不可接受的延迟，无法满足电商搜索严苛的实时性要求。此外，关键词覆盖范围有限，容易导致模型仅聚焦于关键词显式涵盖的商品，泛化能力受限。

核心问题：能否在保留甚至进一步增强推理带来的性能增益的同时，不承担推理带来的开销？

2.3.2 自蒸馏的核心机制

我们提出了一种推理内化自蒸馏机制，其核心思想是将关键词引导的深思型 CoT 推理能力直接编码至模型参数，将其转化为快速直觉式推理。该过程无需修改模型架构、不增加参数数量、也不添加推理 token，仅通过定制化的蒸馏过程将推理能力注入原模型权重。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

信息不对称的自蒸馏公式

该自蒸馏方法基于信息不对称原则：教师模型能观察到比学生模型更丰富的输入信息，而学生模型则在信息劣势下被训练去匹配教师模型的输出分布。关键点在于，教师和学生共享相同的模型权重，无需独立的教师网络。

具体而言，教师模型接收包含关键词级 CoT 的完整输入：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

学生模型则接收不含关键词的相同输入：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

两者针对目标标签序列

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

产生输出 logits：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

由于权重共享，模型输出 O_teacher 和 O_student 的差异完全源于输入中关键词信息的有无。蒸馏目标旨在鼓励学生模型缩小这一差距：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

其中，

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

为有效（非 padding）token 位置集合，τ 为蒸馏温度。教师的 logits 会从计算图中分离（torch.no_grad()），KL 散度的梯度仅更新学生模型的前向路径。基础训练目标将标准交叉熵损失与蒸馏信号结合：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

为了验证自蒸馏相对于其他推理内化方案的优越性，我们对比了四种替代策略：

*   **特殊 token 蒸馏**：在学生输入中插入专用标记 token。
*   **CODI 风格隐状态对齐**：通过连续思维向量和 L1 损失对齐隐层表征。
*   **EMA 教师模式**：教师权重为学生权重的指数移动平均。
*   **联合训练模式**：教师与学生双向互学习，共同更新。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

缓解表征不稳定性

教师与学生之间的信息不对称引入了一个根本性挑战：学生必须从严格更少信息的输入中产生同样自信的预测。这迫使损失曲面在关键词缺失输入的邻域变得尖锐：嵌入空间的微小扰动可能导致输出分布发生不成比例的巨大变化。我们识别出两种互补的失败模式，并采用针对性的正则化方法进行应对：

*   **预测一致性：R-Drop**。缺乏关键词引导时，学生对语义歧义 query 的内部表征对 dropout 的随机扰动更为敏感，对同一输入的两次前向传播可能产生不一致的分布。我们对独立 dropout mask 下的两次前向传播

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

，最小化其散度：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

*   **输入鲁棒性：FGM 对抗扰动**。为了补充 R-Drop 在输出空间的正则化作用，我们对输入嵌入空间应用 FGM（Fast Gradient Method）。在第一次反向传播后，沿梯度方向扰动共享嵌入层：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

在扰动后的嵌入

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

上进行第二次前向-反向传播得到梯度，累积后恢复原始嵌入 e。为了隔离各组件的贡献并观察它们与自蒸馏的协同效应，我们分别在 baseline 与自蒸馏模型上逐一叠加 R-Drop、FGM 与 Focal Loss。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

总优化目标

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

此外，我们使用 focal loss 替换标准交叉熵损失，以缓解 SID 词表中长尾类别不均衡的问题。

2.3.3 关键实验结论

自蒸馏是主要性能驱动：它带来了单项最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%）。
Self-Distill (S) 优于 Base (T)：即使推理时从未观察到关键词，经过自蒸馏的学生模型仍持续优于使用关键词增强训练与评估的教师模型，这证实了推理能力已被成功编码进模型权重。
self-mode 优于所有替代方案：相比 special-token、CODI 式隐状态对齐、EMA-mode、joint-mode 等方案，完全共享权重加上输入层信息不对称是最有效的范式。
三种正则化协同增效：R-Drop、FGM 与 focal loss 的组合效果超过了各自贡献之和，表明信息不对称导致的表征不稳定是多维度的。

2.4 Behavior Feedback Preference Alignment（行为反馈偏好对齐）

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

2.4.1 动机：替换独立 Reward Model，直接利用用户行为反馈

OneSearch-V2 采用直接行为反馈替代独立的 Reward Model，构建了一个偏好对齐系统：

设计复合奖励：兼顾 query-item 相关性与多阶转化目标。
引入 Token-Position Marginal Advantage（TPMA）机制：根据 SID 序列位置差异分配信用，以适配其粗到细的层次因果结构。
支持流式更新与灵活业务干预。

2.4.2 复合奖励设计

深度重写与降重版本

对于每个生成的 rollout（即 SID 序列），系统会计算一个标量奖励，该奖励聚合了三个互补的信号：

相关性奖励：利用现有的相关性评估系统，将生成商品划分为四个奖励等级：3、2、1、0。
后验转化奖励：使用校准后的后验点击率（CTR）作为密集的反馈信号，并将其裁剪至 (0, 1) 区间，以防止那些点击率高但缺乏真实相关性的商品主导奖励。
点击与下单奖励：直接奖励那些被用户实际点击或购买的 SID：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

其中，

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

表示购买行为，它比点击行为反映了更强的偏好信号。最终的复合奖励公式为：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

。这种加性设计不仅有效避免了奖励稀疏的问题，还巧妙地平衡了相关性与转化率之间的约束。

2.4.3 标准 GRPO 及其局限性

GRPO 通过组内的优势（advantage）归一化，摒弃了评论家（critic）网络。对于每个输入的 prompt，当前策略会生成多个 rollout，其序列级别的 advantage 计算公式为：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

核心问题：标准的 GRPO 为 rollout 中的每一个 token 位置赋予了相同的 advantage。然而，SID 的生成过程具有严格的层次因果结构：第一个 token 编码了最粗粒度的类目信息，后续的 token 则逐步细化到更具体的属性。一个正确的前缀搭配错误的后缀，与一个完全错误的前缀，其含义有着本质区别。这种均匀的信用分配机制混淆了不同位置的不同贡献，从而削弱了学习信号。

2.4.4 TPMA-GRPO：Token-Position Marginal Advantage（令牌位置边际优势）

为了解决信用分配问题，我们提出了 TPMA-GRPO，它将序列级别的奖励分解为位置级别的边际贡献，并通过前缀正确性来门控梯度流。

前缀奖励（Prefix Reward）

对于每个 rollout 生成的 SID token，我们定义在位置 l 处的前缀奖励为：与任意 ground-truth 目标 SID 的最大累积匹配度：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

其中，

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

。边际贡献

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

被设计为

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

。因子 2 表示前部共享的层次特征编码（位置 l）应获得更多关注，相比后部的唯一特征量化（位置

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

）而言。GR 模型应优先生成符合 query 语义内容的商品。

位置级别的 advantage：在 G 个 rollout 内，对每个位置独立地归一化其边际贡献：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

这确保了位置 l 的 advantage 仅与其它 rollout 中相同位置的 advantage 进行比较，从而实现了精确的跨层次信用分配。

前缀门控（Prefix Gate）

一个关键的洞察是：后续位置的梯度信号仅在前缀正确时才有意义。为此，我们引入了前缀门控，它基于前缀的精度来调制梯度幅度：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

当前缀完全匹配（

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

）时，门控打开；
* 当前缀完全错误（

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

）时，门控关闭，从而有效抑制了下游 token 的梯度。

这种机制自然地实现了层次化的课程学习：模型先学习生成正确的粗粒度 token，然后再学习训练细粒度的 token。

组合 Advantage

结合商品级奖励

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

中的转化信息：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

最终的 advantage 为：

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

这使得模型能够同时学习“生成什么”（通过 TPMA）和“生成的价值”（通过商品级奖励）。

TPMA-GRPO 损失函数

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

前缀门控本身已经提供了一种天然的正则化机制：当

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

时，位置 l 的有效梯度会消失，从而防止了梯度爆炸问题。同时，在训练目标中，我们还额外引入了 SFT 辅助训练，以确保模型保持稳定。

三、效果评测

3.1 离线效果评测

3.1.1 主实验

我们从用户搜索日志中选取了 30,000 个有有效交互的 PV 作为测试集，其中包含 30,000 次点击和 7,229 次下单。对于每个 PV，我们提取 Top-10 的生成商品进行公平对比。所有模型都基于相同的原始预训练模型进行训练，并使用 HitRate@10 和 MRR@10 进行评估。离线实验分为三个部分：SFT 阶段的逐步优化、RL 阶段的对齐优化，以及最终的完整模型。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

注：“+” 表示在前一行模型的基础上累加新组件（逐步叠加），“+” 表示在 SFT 完成后的模型上单独添加对齐任务。最优结果已加粗。

离线实验分析：

OneSearch (baseline)：V1 基线模型，作为所有实验的对照基准。
+ CoT tasks：在 SFT Stage 1 引入四项 CoT 任务后，Order HR@10 提升了 +0.48%，验证了关键词级别 CoT 对 query 语义歧义的有效缓解作用。
+ self-distill：此项带来了单项最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%），确认了将推理能力编码进模型权重是主要的驱动因素。
+ R-Drop：MRR@10 由 0.1017 提升至 0.1045，表明预测一致性约束有效缓解了因信息不对称导致的输出分布波动。
+ FGM：Order HR@10 提升至 0.2180，Click HR@10 提升至 0.2422，进一步增强了输入的鲁棒性。
+ focal loss：缓解了 SID 长尾类别的不均衡问题，Order HR@10 达到 0.2214，Click HR@10 达到 0.2471。三种正则化方法的组合效果超过了各自贡献之和，标志着 SFT 阶段的收尾。
+ PARS：V1 原有的自适应奖励系统作为 RL 基线，Click HR@10 为 0.2538，但 Order MRR@10 相对偏低。
+ GRPO：替换 PARS 后，Order HR@10 为 0.2248，MRR@10 为 0.1106，验证了复合奖励与组相对优化的有效性。
+ TPMA：Order MRR@10 进一步上升至 0.1136，体现了层次化信用分配对细粒度 token 生成的增益。
OneSearch-V2：通过 Listwise DPO 和 TPMA-GRPO 联合优化，达到了所有指标的最优值（Order HR@10 0.2314，Click HR@10 0.2568）。相比 baseline，平均 HR@10 提升了 +2.68%，MRR@10 提升了 +1.66%。DPO 负责学习基础偏好拟合，TPMA 负责平衡多维奖励与泛化，两者互补达到了最佳效果。

3.1.2 消融实验（自蒸馏模型 vs. 独立训练的教师/学生模型）

为了验证自蒸馏是否真正将推理能力内化进了模型权重（而非仅仅依赖关键词输入），我们对比了三种配置：Base (S) 是不含关键词训练与评估的学生模型；Base (T) 是含关键词训练与评估的教师模型；以及自蒸馏模型分别在教师端与学生端的评估结果。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

† Student 模型：不含关键词训练和评估。‡ Teacher 模型：含关键词增强数据训练和评估。

消融实验分析：

Base (S)：作为不含关键词的基线学生模型，仅依赖原始 query 与用户特征进行推理，代表了信息劣势下的性能下界。
Base (T)：作为含关键词增强的基线教师模型，在蒸馏前全面优于 Base (S)，符合“更多信息带来更好性能”的直觉。
Self-Distill (T)：自蒸馏后在教师端（含关键词）进行评估，相比 Base (T) 仍有提升，但略低于 Self-Distill (S)。原因是 self-mode 下教师与学生共享参数，梯度完全由学生损失驱动（其中包含鼓励从截断输入准确预测的 KL 约束），优化方向更偏向于信息缺失条件下的鲁棒性。

3.2 在线 A/B 测试

为验证离线性能提升能否转化为实际生产价值，我们对 OneSearch-V2 与 V1 进行了严格的 A/B 测试。在关键业务指标上，OneSearch-V2 取得了统计学意义上的显著提升（p < 0.05）：商品点击率增长 3.98%，页面点击率提升 1.17%，页面转化率提高 2.90%，买家数增加 2.07%，订单量上升 2.11%。三个逐步部署的版本（V2_RAG、V2_Reason、V2 (full)）也呈现出清晰的单调递增趋势。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

OneSearch V1 🆚 OneSearch V2

3.3 人工 GSB 评测

通过对 3,200 个 q-i 查询项对进行人工评估，进一步验证了搜索体验的改善：页面良好率提升 1.37%，商品质量提高 0.55%，q-i 相关性上升 1.65%。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

OneSearch V1 🆚 OneSearch V2

四、深入分析

4.1 分用户 / query 频次 / 商品冷启动维度下探

在所有用户群体、query 频率类别和 item 热度级别上，OneSearch-V2 均展现出持续且显著的 CTR 提升，体现了模型的鲁棒性和泛化能力。
对于低活跃度用户和冷启动商品，OneSearch-V2 的提升尤为突出。
从 query 频率维度分析，与 V1 的倒 U 型曲线不同，V2 呈现出 U 型曲线，弥补了 V1 在头部和长尾 query 上的理解不足。这表明基于 CoT 的思维增强在处理模糊或罕见 query 方面具有显著优势。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

4.2 分行业 CTR 增益分析

几乎所有行业的 CTR 均获得提升，平均增益为 3.98%。排名前十、中间十和后十行业的 CTR 相对增益如下图所示。
另一个有趣发现是，在标题内容丰富但存在歧义的 query 类别（如服装、鞋类、化妆品和五金电器）中，CTR 的提升更为显著，这表明新模型具备更准确的语义理解和更个性化的预测能力。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

4.3 CoT 关键词覆盖率下钻

CoT keyword 是论文的关键信号来源，其覆盖质量直接影响 self-distillation 的效果。
在线部署中，我们通过近线推理将线上实时 query 更新到语料库。我们下钻了 2026 年 3 月复杂 query 的 CoT 覆盖率，整体覆盖率持续上升，确保了自蒸馏的稳定更新。

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

4.4 相关性与转化率的 Trade-off

针对电商搜索中相互制衡的相关性和转化率两大目标，OneSearch V2 中的 TPMA-GRPO 设计了复合奖励（相关性奖励 + 后验转化奖励 + 点击与下单奖励），以平衡体验目标与转化目标之间的潜在冲突。进一步实验下钻发现：

OneSearch_V2_RAG/FULL 的相关性和转化指标均显著高于 OneSearch_V1；
有趣的是，OneSearch_V2_FULL 的相关性和 CTR 均低于 OneSearch_V2_RAG，但最终的 ctcvr 转化指标却大幅提升（0.231% -> 0.242%）。这与我们设计自蒸馏隐式推理的出发点一致：模型应学习推理的能力，而非推理的结果。RAG 虽然能提升模型的相关性指标，却缩小了潜在商品空间，不利于最终的 order 目标。

4.5 TPMA 的灵活目标调节能力（3.18 大促实验）

如何针对动态优化目标进行实时干预和自适应训练，一直是生成式检索系统面临的长期挑战。

我们针对特定行业需求进行了初步探索。在快手平台的 3.18 全球购物节期间，新兴商家需要额外的流量支持以提升曝光度和竞争力。我们在 OneSearch-V2 框架内实施了一项针对性的干预策略：对于同一 query 中检索到的新兴商家商品，赋予其更高的相关性奖励（

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

）。结果，相应商品的排名显著提升。此外，商品发布者的点击率（CTR）越高，排名通常也越高。这种灵活性对于工业部署具有显著的实际优势，因为工业部署中的业务目标经常随市场动态、促销活动和战略重点的变化而变化。

五、下一步计划

未来方向应遵循三大核心原则：业务需求、场景多样性和以用户为中心的需求。我们发现了几个值得进一步研究的前景方向：

对于历史交互数据有限的长尾 query，应设计更有效的超越日志（Beyond Logs）训练策略，以解决样本不足问题。
电子商务平台的内容形式日益多样化，包括视频、直播和传统商品列表。一个根本性挑战是如何构建统一的 SID 编码方案，既能有效表示异构内容类型，又能保留其独特特征和跨模态关系。
向智能体搜索系统（Agentic Search Systems）的演进是另一个充满前景的前沿领域。这种范式转变需要高效的在线学习机制创新，以便在不影响系统延迟或稳定性的前提下实时更新模型行为。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34603

快手OneSearch-V2：潜空间推理增强，电商搜索新突破

2.2.2 核心功能模块

Step 2：关键词提取

Step 3：偏好校准

2.2.3 部署方式

2.3 Reasoning-internalized Self-distillation（推理内化的自蒸馏）

2.3.1 动机：保留推理增益，消除推理开销

2.3.2 自蒸馏的核心机制

2.3.3 关键实验结论

2.4 Behavior Feedback Preference Alignment（行为反馈偏好对齐）

2.4.1 动机：替换独立 Reward Model，直接利用用户行为反馈

2.4.2 复合奖励设计

深度重写与降重版本

2.4.3 标准 GRPO 及其局限性

2.4.4 TPMA-GRPO：Token-Position Marginal Advantage（令牌位置边际优势）

三、效果评测

3.1 离线效果评测

3.1.1 主实验

3.1.2 消融实验（自蒸馏模型 vs. 独立训练的教师/学生模型）

3.2 在线 A/B 测试

3.3 人工 GSB 评测

四、深入分析

4.1 分用户 / query 频次 / 商品冷启动维度下探

4.2 分行业 CTR 增益分析

4.3 CoT 关键词覆盖率下钻

4.4 相关性与转化率的 Trade-off

4.5 TPMA 的灵活目标调节能力（3.18 大促实验）

五、下一步计划

相关推荐

AI大模型周报：阿里通义、阶跃星辰、智谱AI、Anthropic、OpenAI等巨头密集发布新模型，涵盖编程、视频生成、文档理解与智能体应用

科大讯飞星火X1.5：从“更聪明”到“更懂你”的国产AI新范式

像素级视觉革命：FG-CLIP 2如何突破多模态模型的细粒度理解瓶颈

超越结果正确：Coding Agent过程合规评测新范式揭秘

MiniMax M2.5引爆AI需求：周调用量破3T，开源Agent生态全面接入