
在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体“如何发起查询、如何改写问题、是否真正利用了检索信息”一直缺乏系统性的刻画与分析。
卡内基梅隆大学(CMU)的研究团队基于可重复检索平台 DeepResearchGym,从其统一后端半年的真实流量中整理出超过 1400 万条搜索请求,涉及约 400 万个搜索会话。在完成严格的匿名化与数据清洗后,团队在 Hugging Face 上开源了首个 Agentic Search 行为日志数据集。
基于此数据集,该研究提出了一个三层分析框架:“会话意图(Declarative / Procedural / Reasoning)→ 轨迹动作(专化 / 泛化 / 探索 / 重复)→ 检索信息采纳率(CTAR)”。研究利用大语言模型进行会话切分与标签推断,揭示了智能体搜索中普遍存在的下钻偏好、事实型任务中的重试循环现象,以及不同查询改写模式对历史检索信息依赖程度的显著差异。
总体而言,这项研究不仅为观察与评估 Agentic Search 行为提供了首个大规模开源日志,也为后续在智能体训练与系统设计中显式建模“搜索能力”提供了可复现的数据基础与可量化的行为信号。

- 论文标题:Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
- 论文链接:https://arxiv.org/abs/2601.17617

- Hugging Face 开源数据集:DeepResearchGym Agentic Search Logs
- 数据集链接:https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs
01 从任务到行为:Agentic Search 的缺失一环
近年来,由大型语言模型驱动的 Agentic Search 与深度研究正逐渐成为信息获取的重要形态。在这种模式下,系统不再仅返回一页文档结果,而是通过智能体自动发起多轮检索、阅读文档、改写问题,最终生成综合回答。
与之对应,已有研究提出了多种基准任务和评测框架,用于衡量系统在问答、推理、工具调用等方面的性能。然而,这些评测大多基于构造好的题目和离散样本,缺乏对真实环境中智能体检索行为的系统性观察与结构化分析:
* 多轮会话在实际使用中如何展开?
* 不同任务类型下,智能体采用了哪些检索策略?
* 在多步改写过程中,检索到的证据信息在多大程度上真正影响了后续查询?
论文《Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests》针对上述缺口,基于 DeepResearchGym(DRGym)平台做出了两方面贡献:
1. 从半年真实流量中整理出超过 1400 万条 Agentic Search 请求、约 400 万个搜索会话,在严格匿名化与清洗后,发布了首个开源的 Agentic Search 行为日志数据集。
2. 在此基础上,从任务意图与检索轨迹两个维度,系统分析了智能体的搜索过程,并提出了一个衡量“是否利用检索信息”的指标——CTAR(Context-driven Term Adoption Rate,上下文驱动术语采纳率)。

02 数据与平台:DRGym 日志概况
DRGym 是该团队搭建的一个面向研究用途的可重复检索平台,对外提供统一的 /search API。其后端基于密集检索,挂载在固定的 Web 语料快照上(如 ClueWeb22、FineWeb 等)。不同智能体可以任意策略调用该接口,但所有请求都运行在统一的检索基础设施之上。
日志中的每条记录包含以下信息:
* 查询文本 query_text
* 检索文档数量 num_of_docs(即 top-K)
* 所用数据集 dataset(如 ClueWeb22 / FineWeb)
* 检索预算相关参数 complexity
* 时间戳、匿名化 IP 等会话识别字段
研究选取了约半年的时间窗口,获得了来自 25 个国家、近 600 个 IP 地址的超过 1400 万条请求日志,约 400 万个会话。为验证日志是否具有广泛多元的使用多样性(而非某些基准题目的重复回放),作者从两方面进行了检查:
* 使用文本向量表示分析查询语义分布,结果显示查询覆盖的语义空间较为分散。
* 将日志中的查询与若干常用 Agentic Benchmark 的题目进行语义匹配,重合比例极低。

在隐私方面,日志经过了字段裁剪与匿名化处理:移除了直接可识别信息,对自由文本进行了 PII 清理,并重新生成了会话级别的匿名 ID,最终在 Hugging Face 上公开。
03 从请求到会话:Session 切分方法
原始日志是按时间顺序排列的请求流。为分析行为模式,首先需要划分搜索会话。与传统的人类 Web 日志不同,智能体请求往往高频且可并发,仅依赖固定时间阈值(例如“间隔超过 30 分钟”)容易导致误分。
该工作采用了 语义 + 时间联合的会话划分策略:
1. 首先,基于一批相邻请求样本,通过大语言模型标注“是否属于同一会话”,构建连续性标签。
2. 其次,使用查询的向量表示训练一个连续性判别模型,预测两条查询之间是否应归为同一会话。
3. 在线划分时,对同一匿名 IP 下的新查询,与当前所有活跃会话的末尾查询计算连续性分数,在分数与时间差均满足条件时并入对应会话,否则开启新会话。
这一策略最终得到约 400 万个会话。整体分布显示:
* 单轮会话仍占一定比例,但相当多的会话包含多步查询。
* 大部分相邻请求的时间间隔在数秒到十几秒之内,体现了 Agentic Search 中“高频、小步迭代”的特征。

04 两层视角:任务意图与检索轨迹
在会话划分的基础上,论文从两个层面刻画 Agentic Search 过程:
* 会话层面:会话意图,即智能体在此次搜索中试图完成的任务类型。
* 逐步步骤层面:轨迹动作,即相邻两条查询之间的改写动作类型。
4.1 三类会话意图
作者沿用经典的 Web 搜索目标分类,将多轮会话划分为三类:
1. Declarative(陈述型 / 事实与知识检索)
* 典型问题包括“是什么”、“谁是”、“列出……”。
2. Procedural(过程型 / 操作与步骤检索)
* 包括“如何做”、“如何修复”、“完成某项任务的步骤”等。
3. Reasoning(推理型 / 分析与比较检索)
* 包括“为什么”、“如何权衡”、“多因素比较和规划”等。
标注方式为:将一个会话内的全部查询串联,交由大语言模型进行意图分类,并在样本上使用另一模型进行交叉验证,确保了标签的可靠性。
统计结果显示,日志中以陈述型任务为主,其次是推理型任务,过程型任务占比较小。不同任务意图下,会话长度与检索配置存在明显差异。例如,过程型任务倾向于一次性拉取更多文档,而推理型任务的查询文本通常更长,且前后变化幅度更大。

4.2 四类轨迹改写动作
在单个会话内部,相邻查询之间的变化被划分为四种改写动作:
- 专化:增加约束,下钻到更具体的条件或子范围。
- 泛化:去除约束,将查询放宽到更一般的描述。
- 探索:在同一主题下转向新的侧面或子问题,例如从“定位”转向“属性信息”。
- 重复:语义基本不变的轻微改写或直接重试,例如改写语序、替换同义表达。
这些标签基于大语言模型对查询对的判别结果获得,并结合向量相似度和检索结果重叠进行验证。整体来看,智能体呈现出明显的“下钻偏好”:专化与探索动作使用频率较高,泛化相对稀少。而在许多事实型会话的后期,重复动作显著增多,形成“重试循环”。

另一方面,智能体也表现出一定的“重置-再细化”模式:智能体先在一个宽泛主题上进行专化(例如从“拿破仑战役”收窄到“1796年意大利战役”),随后通过去除约束进行一次泛化(得到更短、更宽泛的查询),再沿着另一个侧面重新专化(切换到“埃及远征”等新的细化方向)。
从查询长度的变化也能看出,专化通常会拉长查询,而泛化则会缩短查询。整体上,泛化在这里更像是一种轻量级回溯,用于在不同细化分支之间切换,而非持续性地将查询维持在宽泛层级。

05 Agent对检索信息的具体利用:CTAR指标
在多轮检索中,一个关键问题是:新的查询在多大程度上受到了既有检索信息的影响。由于日志中没有点击、停留时间等显性交互信号,论文提出了一个间接度量指标:CTAR。
CTAR的计算方法概括如下:
* 对相邻查询对 q_k → q_{k+1} 进行分词与停用词过滤。
* 找出 q_{k+1} 中首次出现的“新词”。
* 在上一步或累积至今的历史检索结果中,检查这些新词是否以词面形式出现。
* CTAR 即为“在上下文中出现的新词占全部新词的比例”。
该指标带来的核心发现包括:
- 整体CTAR超过一半:大约一半以上的新词可以在之前检索到的文档中找到。这表明,在相当多的步骤中,智能体并非完全凭空提出新的条件,而是从已获取信息中采纳术语和约束。
- 不同轨迹改写动作的CTAR存在显著差异:专化和探索动作的CTAR明显高于平均水平,说明这两类改写更依赖已有文档信息;重复动作的CTAR则较低,通常对应表述上的微调或重试,而非基于新信息的策略调整。
- 历史上下文具有额外贡献:仅考虑上一轮检索结果时,CTAR较低;将更早步骤的文档一并纳入后,CTAR稳定提升,说明部分新词来源于更早的检索信息,智能体在一定程度上会“回溯”历史上下文。

需要强调的是,CTAR仅刻画“新词在检索信息中的可追溯性”,并不直接等价于因果利用。但由于其定义简单且易于解释,适合作为衡量“是否参考检索上下文”的粗粒度指标。
06 对Agentic Search系统设计的启示
基于上述行为分析与CTAR指标,论文在结尾讨论了若干与系统设计直接相关的启示:
- 重复动作可视为潜在“停滞信号”:在大量陈述型会话中,随着Agent步骤推进,重复改写的占比明显提高,其检索结果高度重叠且CTAR较低。这种模式可以视为系统进入“原地重试”的信号。在工程上,可以基于重复率、结果重叠度和CTAR等联合特征,检测并中断重试循环,强制触发泛化或探索策略,或切换到更高配置的工具链。
- 检索预算应随任务意图与轨迹自适应调整:日志表明,现有许多智能体将检索深度K设置为固定值,在同一会话内几乎不做调整。然而,不同意图和轨迹状态对检索策略的需求显然不同。更合理的设计是,先对会话意图进行识别,再结合当前轨迹动态调整top-K、上下文长度与工具组合,而非采用全局统一配置。
- 将CTAR等“信息采纳率”指标纳入系统监控:CTAR在不同改写类型之间具有明显区分度。在专化和探索步骤中,CTAR高时往往对应基于检索信息的实质推进;而重复步骤中CTAR较低则更可能反映策略停滞。因此,可以将此类指标纳入系统的观测与调度逻辑:当长时间观测到CTAR偏低或在特定模式下急剧下降时,触发算法层或工作流层面的干预与重规划。
07 结语
整体来看,这项工作完成了三件具有基础设施意义的事情:
- 提供首个开源的Agentic Search行为日志数据集:基于DRGym平台采集并清洗的1400万+请求、约400万会话,在经过匿名化处理后,已在Hugging Face平台公开,为后续研究提供了可复现的行为数据基础。
- 提出面向Agentic Search的“意图–轨迹–信息利用”分析框架:通过三类会话意图、四类轨迹改写动作以及CTAR指标,从结构和内容两个维度刻画智能体搜索过程,为后续的行为建模、策略比较和训练目标设计提供了分析工具。
- 将若干经验性观察固化为可量化的设计建议:具体包括,将重复改写视作停滞信号、依据任务意图与轨迹模式自适应调整检索预算,以及通过检索信息采纳率监控智能体是否真正“读取并利用”检索结果。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20897
