CMU开源首个Agentic Search行为日志数据集：揭秘1400万条搜索请求背后的智能体行为模式

在大模型驱动的 Agentic Search 日益常态化的背景下，真实环境中智能体“如何发起查询、如何改写问题、是否真正利用了检索信息”一直缺乏系统性的刻画与分析。

卡内基梅隆大学（CMU）的研究团队基于可重复检索平台 DeepResearchGym，从其统一后端半年的真实流量中整理出超过 1400 万条搜索请求，涉及约 400 万个搜索会话。在完成严格的匿名化与数据清洗后，团队在 Hugging Face 上开源了首个 Agentic Search 行为日志数据集。

基于此数据集，该研究提出了一个三层分析框架：“会话意图（Declarative / Procedural / Reasoning）→ 轨迹动作（专化 / 泛化 / 探索 / 重复）→ 检索信息采纳率（CTAR）”。研究利用大语言模型进行会话切分与标签推断，揭示了智能体搜索中普遍存在的下钻偏好、事实型任务中的重试循环现象，以及不同查询改写模式对历史检索信息依赖程度的显著差异。

总体而言，这项研究不仅为观察与评估 Agentic Search 行为提供了首个大规模开源日志，也为后续在智能体训练与系统设计中显式建模“搜索能力”提供了可复现的数据基础与可量化的行为信号。

论文标题：Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
论文链接：https://arxiv.org/abs/2601.17617

Hugging Face 开源数据集：DeepResearchGym Agentic Search Logs
数据集链接：https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

01 从任务到行为：Agentic Search 的缺失一环

近年来，由大型语言模型驱动的 Agentic Search 与深度研究正逐渐成为信息获取的重要形态。在这种模式下，系统不再仅返回一页文档结果，而是通过智能体自动发起多轮检索、阅读文档、改写问题，最终生成综合回答。

与之对应，已有研究提出了多种基准任务和评测框架，用于衡量系统在问答、推理、工具调用等方面的性能。然而，这些评测大多基于构造好的题目和离散样本，缺乏对真实环境中智能体检索行为的系统性观察与结构化分析：
* 多轮会话在实际使用中如何展开？
* 不同任务类型下，智能体采用了哪些检索策略？
* 在多步改写过程中，检索到的证据信息在多大程度上真正影响了后续查询？

论文《Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests》针对上述缺口，基于 DeepResearchGym（DRGym）平台做出了两方面贡献：
1. 从半年真实流量中整理出超过 1400 万条 Agentic Search 请求、约 400 万个搜索会话，在严格匿名化与清洗后，发布了首个开源的 Agentic Search 行为日志数据集。
2. 在此基础上，从任务意图与检索轨迹两个维度，系统分析了智能体的搜索过程，并提出了一个衡量“是否利用检索信息”的指标——CTAR（Context-driven Term Adoption Rate，上下文驱动术语采纳率）。

02 数据与平台：DRGym 日志概况

DRGym 是该团队搭建的一个面向研究用途的可重复检索平台，对外提供统一的 /search API。其后端基于密集检索，挂载在固定的 Web 语料快照上（如 ClueWeb22、FineWeb 等）。不同智能体可以任意策略调用该接口，但所有请求都运行在统一的检索基础设施之上。

日志中的每条记录包含以下信息：
* 查询文本 query_text
* 检索文档数量 num_of_docs（即 top-K）
* 所用数据集 dataset（如 ClueWeb22 / FineWeb）
* 检索预算相关参数 complexity
* 时间戳、匿名化 IP 等会话识别字段

研究选取了约半年的时间窗口，获得了来自 25 个国家、近 600 个 IP 地址的超过 1400 万条请求日志，约 400 万个会话。为验证日志是否具有广泛多元的使用多样性（而非某些基准题目的重复回放），作者从两方面进行了检查：
* 使用文本向量表示分析查询语义分布，结果显示查询覆盖的语义空间较为分散。
* 将日志中的查询与若干常用 Agentic Benchmark 的题目进行语义匹配，重合比例极低。

在隐私方面，日志经过了字段裁剪与匿名化处理：移除了直接可识别信息，对自由文本进行了 PII 清理，并重新生成了会话级别的匿名 ID，最终在 Hugging Face 上公开。

03 从请求到会话：Session 切分方法

原始日志是按时间顺序排列的请求流。为分析行为模式，首先需要划分搜索会话。与传统的人类 Web 日志不同，智能体请求往往高频且可并发，仅依赖固定时间阈值（例如“间隔超过 30 分钟”）容易导致误分。

该工作采用了 语义 + 时间联合的会话划分策略：
1. 首先，基于一批相邻请求样本，通过大语言模型标注“是否属于同一会话”，构建连续性标签。
2. 其次，使用查询的向量表示训练一个连续性判别模型，预测两条查询之间是否应归为同一会话。
3. 在线划分时，对同一匿名 IP 下的新查询，与当前所有活跃会话的末尾查询计算连续性分数，在分数与时间差均满足条件时并入对应会话，否则开启新会话。

这一策略最终得到约 400 万个会话。整体分布显示：
* 单轮会话仍占一定比例，但相当多的会话包含多步查询。
* 大部分相邻请求的时间间隔在数秒到十几秒之内，体现了 Agentic Search 中“高频、小步迭代”的特征。

04 两层视角：任务意图与检索轨迹

在会话划分的基础上，论文从两个层面刻画 Agentic Search 过程：
* 会话层面：会话意图，即智能体在此次搜索中试图完成的任务类型。
* 逐步步骤层面：轨迹动作，即相邻两条查询之间的改写动作类型。

4.1 三类会话意图

作者沿用经典的 Web 搜索目标分类，将多轮会话划分为三类：
1. Declarative（陈述型 / 事实与知识检索）
* 典型问题包括“是什么”、“谁是”、“列出……”。
2. Procedural（过程型 / 操作与步骤检索）
* 包括“如何做”、“如何修复”、“完成某项任务的步骤”等。
3. Reasoning（推理型 / 分析与比较检索）
* 包括“为什么”、“如何权衡”、“多因素比较和规划”等。

标注方式为：将一个会话内的全部查询串联，交由大语言模型进行意图分类，并在样本上使用另一模型进行交叉验证，确保了标签的可靠性。

统计结果显示，日志中以陈述型任务为主，其次是推理型任务，过程型任务占比较小。不同任务意图下，会话长度与检索配置存在明显差异。例如，过程型任务倾向于一次性拉取更多文档，而推理型任务的查询文本通常更长，且前后变化幅度更大。

4.2 四类轨迹改写动作

在单个会话内部，相邻查询之间的变化被划分为四种改写动作：

专化：增加约束，下钻到更具体的条件或子范围。
泛化：去除约束，将查询放宽到更一般的描述。
探索：在同一主题下转向新的侧面或子问题，例如从“定位”转向“属性信息”。
重复：语义基本不变的轻微改写或直接重试，例如改写语序、替换同义表达。

这些标签基于大语言模型对查询对的判别结果获得，并结合向量相似度和检索结果重叠进行验证。整体来看，智能体呈现出明显的“下钻偏好”：专化与探索动作使用频率较高，泛化相对稀少。而在许多事实型会话的后期，重复动作显著增多，形成“重试循环”。

另一方面，智能体也表现出一定的“重置-再细化”模式：智能体先在一个宽泛主题上进行专化（例如从“拿破仑战役”收窄到“1796年意大利战役”），随后通过去除约束进行一次泛化（得到更短、更宽泛的查询），再沿着另一个侧面重新专化（切换到“埃及远征”等新的细化方向）。

从查询长度的变化也能看出，专化通常会拉长查询，而泛化则会缩短查询。整体上，泛化在这里更像是一种轻量级回溯，用于在不同细化分支之间切换，而非持续性地将查询维持在宽泛层级。

05 Agent对检索信息的具体利用：CTAR指标

在多轮检索中，一个关键问题是：新的查询在多大程度上受到了既有检索信息的影响。由于日志中没有点击、停留时间等显性交互信号，论文提出了一个间接度量指标：CTAR。

CTAR的计算方法概括如下：
* 对相邻查询对 q_k → q_{k+1} 进行分词与停用词过滤。
* 找出 q_{k+1} 中首次出现的“新词”。
* 在上一步或累积至今的历史检索结果中，检查这些新词是否以词面形式出现。
* CTAR 即为“在上下文中出现的新词占全部新词的比例”。

该指标带来的核心发现包括：

整体CTAR超过一半：大约一半以上的新词可以在之前检索到的文档中找到。这表明，在相当多的步骤中，智能体并非完全凭空提出新的条件，而是从已获取信息中采纳术语和约束。
不同轨迹改写动作的CTAR存在显著差异：专化和探索动作的CTAR明显高于平均水平，说明这两类改写更依赖已有文档信息；重复动作的CTAR则较低，通常对应表述上的微调或重试，而非基于新信息的策略调整。
历史上下文具有额外贡献：仅考虑上一轮检索结果时，CTAR较低；将更早步骤的文档一并纳入后，CTAR稳定提升，说明部分新词来源于更早的检索信息，智能体在一定程度上会“回溯”历史上下文。

需要强调的是，CTAR仅刻画“新词在检索信息中的可追溯性”，并不直接等价于因果利用。但由于其定义简单且易于解释，适合作为衡量“是否参考检索上下文”的粗粒度指标。

06 对Agentic Search系统设计的启示

基于上述行为分析与CTAR指标，论文在结尾讨论了若干与系统设计直接相关的启示：

重复动作可视为潜在“停滞信号”：在大量陈述型会话中，随着Agent步骤推进，重复改写的占比明显提高，其检索结果高度重叠且CTAR较低。这种模式可以视为系统进入“原地重试”的信号。在工程上，可以基于重复率、结果重叠度和CTAR等联合特征，检测并中断重试循环，强制触发泛化或探索策略，或切换到更高配置的工具链。
检索预算应随任务意图与轨迹自适应调整：日志表明，现有许多智能体将检索深度K设置为固定值，在同一会话内几乎不做调整。然而，不同意图和轨迹状态对检索策略的需求显然不同。更合理的设计是，先对会话意图进行识别，再结合当前轨迹动态调整top-K、上下文长度与工具组合，而非采用全局统一配置。
将CTAR等“信息采纳率”指标纳入系统监控：CTAR在不同改写类型之间具有明显区分度。在专化和探索步骤中，CTAR高时往往对应基于检索信息的实质推进；而重复步骤中CTAR较低则更可能反映策略停滞。因此，可以将此类指标纳入系统的观测与调度逻辑：当长时间观测到CTAR偏低或在特定模式下急剧下降时，触发算法层或工作流层面的干预与重规划。

07 结语

整体来看，这项工作完成了三件具有基础设施意义的事情：

提供首个开源的Agentic Search行为日志数据集：基于DRGym平台采集并清洗的1400万+请求、约400万会话，在经过匿名化处理后，已在Hugging Face平台公开，为后续研究提供了可复现的行为数据基础。
提出面向Agentic Search的“意图–轨迹–信息利用”分析框架：通过三类会话意图、四类轨迹改写动作以及CTAR指标，从结构和内容两个维度刻画智能体搜索过程，为后续的行为建模、策略比较和训练目标设计提供了分析工具。
将若干经验性观察固化为可量化的设计建议：具体包括，将重复改写视作停滞信号、依据任务意图与轨迹模式自适应调整检索预算，以及通过检索信息采纳率监控智能体是否真正“读取并利用”检索结果。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20897

CMU开源首个Agentic Search行为日志数据集：揭秘1400万条搜索请求背后的智能体行为模式

01 从任务到行为：Agentic Search 的缺失一环

02 数据与平台：DRGym 日志概况

03 从请求到会话：Session 切分方法

04 两层视角：任务意图与检索轨迹

4.1 三类会话意图

4.2 四类轨迹改写动作

05 Agent对检索信息的具体利用：CTAR指标

06 对Agentic Search系统设计的启示

07 结语

相关推荐

Anthropic押注英国存算一体黑马Fractile：2027年AI推理芯片格局或生变

Grok大规模信息失真事件：生成式AI的实时幻觉危机与后真相时代的算法困境

库克离职传闻背后的真相：苹果AI战略转型期的深层解读

2025宝山智能机器人产业大会前瞻：从具身智能到核心部件，解码产业新生态

从虚拟生成到真实复刻：如视Argus 1.0如何用空间大模型重构物理世界