CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体“如何发起查询、如何改写问题、是否真正利用了检索信息”一直缺乏系统性的刻画与分析。

卡内基梅隆大学(CMU)的研究团队基于可重复检索平台 DeepResearchGym,从其统一后端半年的真实流量中整理出超过 1400 万条搜索请求,涉及约 400 万个搜索会话。在完成严格的匿名化与数据清洗后,团队在 Hugging Face 上开源了首个 Agentic Search 行为日志数据集。

基于此数据集,该研究提出了一个三层分析框架:“会话意图(Declarative / Procedural / Reasoning)→ 轨迹动作(专化 / 泛化 / 探索 / 重复)→ 检索信息采纳率(CTAR)”。研究利用大语言模型进行会话切分与标签推断,揭示了智能体搜索中普遍存在的下钻偏好、事实型任务中的重试循环现象,以及不同查询改写模式对历史检索信息依赖程度的显著差异。

总体而言,这项研究不仅为观察与评估 Agentic Search 行为提供了首个大规模开源日志,也为后续在智能体训练与系统设计中显式建模“搜索能力”提供了可复现的数据基础与可量化的行为信号。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

  • 论文标题:Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
  • 论文链接:https://arxiv.org/abs/2601.17617

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

  • Hugging Face 开源数据集:DeepResearchGym Agentic Search Logs
  • 数据集链接:https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

01 从任务到行为:Agentic Search 的缺失一环

近年来,由大型语言模型驱动的 Agentic Search 与深度研究正逐渐成为信息获取的重要形态。在这种模式下,系统不再仅返回一页文档结果,而是通过智能体自动发起多轮检索、阅读文档、改写问题,最终生成综合回答。

与之对应,已有研究提出了多种基准任务和评测框架,用于衡量系统在问答、推理、工具调用等方面的性能。然而,这些评测大多基于构造好的题目和离散样本,缺乏对真实环境中智能体检索行为的系统性观察与结构化分析:
* 多轮会话在实际使用中如何展开?
* 不同任务类型下,智能体采用了哪些检索策略?
* 在多步改写过程中,检索到的证据信息在多大程度上真正影响了后续查询?

论文《Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests》针对上述缺口,基于 DeepResearchGym(DRGym)平台做出了两方面贡献:
1. 从半年真实流量中整理出超过 1400 万条 Agentic Search 请求、约 400 万个搜索会话,在严格匿名化与清洗后,发布了首个开源的 Agentic Search 行为日志数据集。
2. 在此基础上,从任务意图与检索轨迹两个维度,系统分析了智能体的搜索过程,并提出了一个衡量“是否利用检索信息”的指标——CTAR(Context-driven Term Adoption Rate,上下文驱动术语采纳率)。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

02 数据与平台:DRGym 日志概况

DRGym 是该团队搭建的一个面向研究用途的可重复检索平台,对外提供统一的 /search API。其后端基于密集检索,挂载在固定的 Web 语料快照上(如 ClueWeb22、FineWeb 等)。不同智能体可以任意策略调用该接口,但所有请求都运行在统一的检索基础设施之上。

日志中的每条记录包含以下信息:
* 查询文本 query_text
* 检索文档数量 num_of_docs(即 top-K)
* 所用数据集 dataset(如 ClueWeb22 / FineWeb)
* 检索预算相关参数 complexity
* 时间戳、匿名化 IP 等会话识别字段

研究选取了约半年的时间窗口,获得了来自 25 个国家、近 600 个 IP 地址的超过 1400 万条请求日志,约 400 万个会话。为验证日志是否具有广泛多元的使用多样性(而非某些基准题目的重复回放),作者从两方面进行了检查:
* 使用文本向量表示分析查询语义分布,结果显示查询覆盖的语义空间较为分散。
* 将日志中的查询与若干常用 Agentic Benchmark 的题目进行语义匹配,重合比例极低。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

在隐私方面,日志经过了字段裁剪与匿名化处理:移除了直接可识别信息,对自由文本进行了 PII 清理,并重新生成了会话级别的匿名 ID,最终在 Hugging Face 上公开。

03 从请求到会话:Session 切分方法

原始日志是按时间顺序排列的请求流。为分析行为模式,首先需要划分搜索会话。与传统的人类 Web 日志不同,智能体请求往往高频且可并发,仅依赖固定时间阈值(例如“间隔超过 30 分钟”)容易导致误分。

该工作采用了 语义 + 时间联合的会话划分策略
1. 首先,基于一批相邻请求样本,通过大语言模型标注“是否属于同一会话”,构建连续性标签。
2. 其次,使用查询的向量表示训练一个连续性判别模型,预测两条查询之间是否应归为同一会话。
3. 在线划分时,对同一匿名 IP 下的新查询,与当前所有活跃会话的末尾查询计算连续性分数,在分数与时间差均满足条件时并入对应会话,否则开启新会话。

这一策略最终得到约 400 万个会话。整体分布显示:
* 单轮会话仍占一定比例,但相当多的会话包含多步查询。
* 大部分相邻请求的时间间隔在数秒到十几秒之内,体现了 Agentic Search 中“高频、小步迭代”的特征。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

04 两层视角:任务意图与检索轨迹

在会话划分的基础上,论文从两个层面刻画 Agentic Search 过程:
* 会话层面:会话意图,即智能体在此次搜索中试图完成的任务类型。
* 逐步步骤层面:轨迹动作,即相邻两条查询之间的改写动作类型。

4.1 三类会话意图

作者沿用经典的 Web 搜索目标分类,将多轮会话划分为三类:
1. Declarative(陈述型 / 事实与知识检索)
* 典型问题包括“是什么”、“谁是”、“列出……”。
2. Procedural(过程型 / 操作与步骤检索)
* 包括“如何做”、“如何修复”、“完成某项任务的步骤”等。
3. Reasoning(推理型 / 分析与比较检索)
* 包括“为什么”、“如何权衡”、“多因素比较和规划”等。

标注方式为:将一个会话内的全部查询串联,交由大语言模型进行意图分类,并在样本上使用另一模型进行交叉验证,确保了标签的可靠性。

统计结果显示,日志中以陈述型任务为主,其次是推理型任务,过程型任务占比较小。不同任务意图下,会话长度与检索配置存在明显差异。例如,过程型任务倾向于一次性拉取更多文档,而推理型任务的查询文本通常更长,且前后变化幅度更大。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

4.2 四类轨迹改写动作

在单个会话内部,相邻查询之间的变化被划分为四种改写动作:

  1. 专化:增加约束,下钻到更具体的条件或子范围。
  2. 泛化:去除约束,将查询放宽到更一般的描述。
  3. 探索:在同一主题下转向新的侧面或子问题,例如从“定位”转向“属性信息”。
  4. 重复:语义基本不变的轻微改写或直接重试,例如改写语序、替换同义表达。

这些标签基于大语言模型对查询对的判别结果获得,并结合向量相似度和检索结果重叠进行验证。整体来看,智能体呈现出明显的“下钻偏好”:专化与探索动作使用频率较高,泛化相对稀少。而在许多事实型会话的后期,重复动作显著增多,形成“重试循环”。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

另一方面,智能体也表现出一定的“重置-再细化”模式:智能体先在一个宽泛主题上进行专化(例如从“拿破仑战役”收窄到“1796年意大利战役”),随后通过去除约束进行一次泛化(得到更短、更宽泛的查询),再沿着另一个侧面重新专化(切换到“埃及远征”等新的细化方向)。

从查询长度的变化也能看出,专化通常会拉长查询,而泛化则会缩短查询。整体上,泛化在这里更像是一种轻量级回溯,用于在不同细化分支之间切换,而非持续性地将查询维持在宽泛层级。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

05 Agent对检索信息的具体利用:CTAR指标

在多轮检索中,一个关键问题是:新的查询在多大程度上受到了既有检索信息的影响。由于日志中没有点击、停留时间等显性交互信号,论文提出了一个间接度量指标:CTAR

CTAR的计算方法概括如下:
* 对相邻查询对 q_k → q_{k+1} 进行分词与停用词过滤。
* 找出 q_{k+1} 中首次出现的“新词”。
* 在上一步或累积至今的历史检索结果中,检查这些新词是否以词面形式出现。
* CTAR 即为“在上下文中出现的新词占全部新词的比例”。

该指标带来的核心发现包括:

  1. 整体CTAR超过一半:大约一半以上的新词可以在之前检索到的文档中找到。这表明,在相当多的步骤中,智能体并非完全凭空提出新的条件,而是从已获取信息中采纳术语和约束。
  2. 不同轨迹改写动作的CTAR存在显著差异:专化和探索动作的CTAR明显高于平均水平,说明这两类改写更依赖已有文档信息;重复动作的CTAR则较低,通常对应表述上的微调或重试,而非基于新信息的策略调整。
  3. 历史上下文具有额外贡献:仅考虑上一轮检索结果时,CTAR较低;将更早步骤的文档一并纳入后,CTAR稳定提升,说明部分新词来源于更早的检索信息,智能体在一定程度上会“回溯”历史上下文。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

需要强调的是,CTAR仅刻画“新词在检索信息中的可追溯性”,并不直接等价于因果利用。但由于其定义简单且易于解释,适合作为衡量“是否参考检索上下文”的粗粒度指标。

06 对Agentic Search系统设计的启示

基于上述行为分析与CTAR指标,论文在结尾讨论了若干与系统设计直接相关的启示:

  1. 重复动作可视为潜在“停滞信号”:在大量陈述型会话中,随着Agent步骤推进,重复改写的占比明显提高,其检索结果高度重叠且CTAR较低。这种模式可以视为系统进入“原地重试”的信号。在工程上,可以基于重复率、结果重叠度和CTAR等联合特征,检测并中断重试循环,强制触发泛化或探索策略,或切换到更高配置的工具链。
  2. 检索预算应随任务意图与轨迹自适应调整:日志表明,现有许多智能体将检索深度K设置为固定值,在同一会话内几乎不做调整。然而,不同意图和轨迹状态对检索策略的需求显然不同。更合理的设计是,先对会话意图进行识别,再结合当前轨迹动态调整top-K、上下文长度与工具组合,而非采用全局统一配置。
  3. 将CTAR等“信息采纳率”指标纳入系统监控:CTAR在不同改写类型之间具有明显区分度。在专化和探索步骤中,CTAR高时往往对应基于检索信息的实质推进;而重复步骤中CTAR较低则更可能反映策略停滞。因此,可以将此类指标纳入系统的观测与调度逻辑:当长时间观测到CTAR偏低或在特定模式下急剧下降时,触发算法层或工作流层面的干预与重规划。

07 结语

整体来看,这项工作完成了三件具有基础设施意义的事情:

  1. 提供首个开源的Agentic Search行为日志数据集:基于DRGym平台采集并清洗的1400万+请求、约400万会话,在经过匿名化处理后,已在Hugging Face平台公开,为后续研究提供了可复现的行为数据基础。
  2. 提出面向Agentic Search的“意图–轨迹–信息利用”分析框架:通过三类会话意图、四类轨迹改写动作以及CTAR指标,从结构和内容两个维度刻画智能体搜索过程,为后续的行为建模、策略比较和训练目标设计提供了分析工具。
  3. 将若干经验性观察固化为可量化的设计建议:具体包括,将重复改写视作停滞信号、依据任务意图与轨迹模式自适应调整检索预算,以及通过检索信息采纳率监控智能体是否真正“读取并利用”检索结果。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/20897

(0)
上一篇 2026年2月9日 上午8:09
下一篇 2026年2月9日 上午8:54

相关推荐

  • Qoder深度评测:国产AI编程工具如何颠覆真实软件研发?

    在当今快速迭代的软件开发领域,程序员们普遍面临着一个棘手的挑战:理解和维护大型、复杂的代码库。无论是接手遗留系统、参与开源项目,还是协作企业级应用,开发者往往需要耗费数周甚至数月的时间来梳理代码结构、理解业务逻辑。传统方法依赖人工阅读、文档搜索和团队沟通,效率低下且容易出错。 近期,一款名为Qoder的国产AI编程工具横空出世,旨在彻底改变这一现状。Qode…

    2025年11月27日
    19600
  • AscendKernelGen:突破NPU算子生成瓶颈,大语言模型领域适配实现95.5%编译成功率

    关键词:昇腾 Ascend、NPU 内核生成、大语言模型、领域适应、强化学习、评估基准 在人工智能飞速发展的今天,深度学习的计算需求呈指数级增长,传统的 CPU 和通用 GPU 已难以满足特定场景下的高效计算要求。为此,神经处理单元(Neural Processing Unit,NPU) 作为专为 AI 计算设计的领域专用加速器,逐渐成为现代 AI 基础设施…

    2026年1月23日
    28600
  • OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代

    OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代 就在今天,OpenAI为科研工作者带来了一份重磅礼物——免费的科研写作平台Prism。该平台将GPT-5.2模型深度集成于在线LaTeX编辑器中,能够直接理解论文的完整结构、公式推导与参考文献,标志着论文创作进入了“Vibe Coding”式的新时代…

    2026年1月28日
    19200
  • Sunday Robotics获1.65亿美元B轮融资,估值11.5亿美元成独角兽,目标让机器人从Demo走向真实家庭

    Sunday Robotics完成1.65亿美元B轮融资,估值达11.5亿美元 由斯坦福具身智能领域研究者赵子豪(Tony Zhao)与迟宬(Cheng Chi)联合创立的机器人公司Sunday Robotics,近日宣布完成1.65亿美元的B轮融资。本轮融资后,公司估值升至11.5亿美元,正式成为独角兽企业。 该公司于去年11月正式发布其轮式机器人产品Me…

    2天前
    9400
  • 情感动态轨迹评估框架:大语言模型情感支持能力的科学度量

    在人工智能技术快速发展的今天,大语言模型(LLMs)已从单纯的信息处理工具演变为具备情感交互能力的复杂系统。近日,趣丸科技与北京大学软件工程国家工程研究中心联合发表的《检测情感动态轨迹:大语言模型情感支持的评估框架》论文获AAAI 2026录用,标志着情感计算领域迈入了全新的评估范式。AAAI作为人工智能领域的顶级学术会议,本届会议投稿量达31000篇,录用…

    2025年12月7日
    22500