CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体“如何发起查询、如何改写问题、是否真正利用了检索信息”一直缺乏系统性的刻画与分析。

卡内基梅隆大学(CMU)的研究团队基于可重复检索平台 DeepResearchGym,从其统一后端半年的真实流量中整理出超过 1400 万条搜索请求,涉及约 400 万个搜索会话。在完成严格的匿名化与数据清洗后,团队在 Hugging Face 上开源了首个 Agentic Search 行为日志数据集。

基于此数据集,该研究提出了一个三层分析框架:“会话意图(Declarative / Procedural / Reasoning)→ 轨迹动作(专化 / 泛化 / 探索 / 重复)→ 检索信息采纳率(CTAR)”。研究利用大语言模型进行会话切分与标签推断,揭示了智能体搜索中普遍存在的下钻偏好、事实型任务中的重试循环现象,以及不同查询改写模式对历史检索信息依赖程度的显著差异。

总体而言,这项研究不仅为观察与评估 Agentic Search 行为提供了首个大规模开源日志,也为后续在智能体训练与系统设计中显式建模“搜索能力”提供了可复现的数据基础与可量化的行为信号。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

  • 论文标题:Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
  • 论文链接:https://arxiv.org/abs/2601.17617

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

  • Hugging Face 开源数据集:DeepResearchGym Agentic Search Logs
  • 数据集链接:https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

01 从任务到行为:Agentic Search 的缺失一环

近年来,由大型语言模型驱动的 Agentic Search 与深度研究正逐渐成为信息获取的重要形态。在这种模式下,系统不再仅返回一页文档结果,而是通过智能体自动发起多轮检索、阅读文档、改写问题,最终生成综合回答。

与之对应,已有研究提出了多种基准任务和评测框架,用于衡量系统在问答、推理、工具调用等方面的性能。然而,这些评测大多基于构造好的题目和离散样本,缺乏对真实环境中智能体检索行为的系统性观察与结构化分析:
* 多轮会话在实际使用中如何展开?
* 不同任务类型下,智能体采用了哪些检索策略?
* 在多步改写过程中,检索到的证据信息在多大程度上真正影响了后续查询?

论文《Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests》针对上述缺口,基于 DeepResearchGym(DRGym)平台做出了两方面贡献:
1. 从半年真实流量中整理出超过 1400 万条 Agentic Search 请求、约 400 万个搜索会话,在严格匿名化与清洗后,发布了首个开源的 Agentic Search 行为日志数据集。
2. 在此基础上,从任务意图与检索轨迹两个维度,系统分析了智能体的搜索过程,并提出了一个衡量“是否利用检索信息”的指标——CTAR(Context-driven Term Adoption Rate,上下文驱动术语采纳率)。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

02 数据与平台:DRGym 日志概况

DRGym 是该团队搭建的一个面向研究用途的可重复检索平台,对外提供统一的 /search API。其后端基于密集检索,挂载在固定的 Web 语料快照上(如 ClueWeb22、FineWeb 等)。不同智能体可以任意策略调用该接口,但所有请求都运行在统一的检索基础设施之上。

日志中的每条记录包含以下信息:
* 查询文本 query_text
* 检索文档数量 num_of_docs(即 top-K)
* 所用数据集 dataset(如 ClueWeb22 / FineWeb)
* 检索预算相关参数 complexity
* 时间戳、匿名化 IP 等会话识别字段

研究选取了约半年的时间窗口,获得了来自 25 个国家、近 600 个 IP 地址的超过 1400 万条请求日志,约 400 万个会话。为验证日志是否具有广泛多元的使用多样性(而非某些基准题目的重复回放),作者从两方面进行了检查:
* 使用文本向量表示分析查询语义分布,结果显示查询覆盖的语义空间较为分散。
* 将日志中的查询与若干常用 Agentic Benchmark 的题目进行语义匹配,重合比例极低。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

在隐私方面,日志经过了字段裁剪与匿名化处理:移除了直接可识别信息,对自由文本进行了 PII 清理,并重新生成了会话级别的匿名 ID,最终在 Hugging Face 上公开。

03 从请求到会话:Session 切分方法

原始日志是按时间顺序排列的请求流。为分析行为模式,首先需要划分搜索会话。与传统的人类 Web 日志不同,智能体请求往往高频且可并发,仅依赖固定时间阈值(例如“间隔超过 30 分钟”)容易导致误分。

该工作采用了 语义 + 时间联合的会话划分策略
1. 首先,基于一批相邻请求样本,通过大语言模型标注“是否属于同一会话”,构建连续性标签。
2. 其次,使用查询的向量表示训练一个连续性判别模型,预测两条查询之间是否应归为同一会话。
3. 在线划分时,对同一匿名 IP 下的新查询,与当前所有活跃会话的末尾查询计算连续性分数,在分数与时间差均满足条件时并入对应会话,否则开启新会话。

这一策略最终得到约 400 万个会话。整体分布显示:
* 单轮会话仍占一定比例,但相当多的会话包含多步查询。
* 大部分相邻请求的时间间隔在数秒到十几秒之内,体现了 Agentic Search 中“高频、小步迭代”的特征。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

04 两层视角:任务意图与检索轨迹

在会话划分的基础上,论文从两个层面刻画 Agentic Search 过程:
* 会话层面:会话意图,即智能体在此次搜索中试图完成的任务类型。
* 逐步步骤层面:轨迹动作,即相邻两条查询之间的改写动作类型。

4.1 三类会话意图

作者沿用经典的 Web 搜索目标分类,将多轮会话划分为三类:
1. Declarative(陈述型 / 事实与知识检索)
* 典型问题包括“是什么”、“谁是”、“列出……”。
2. Procedural(过程型 / 操作与步骤检索)
* 包括“如何做”、“如何修复”、“完成某项任务的步骤”等。
3. Reasoning(推理型 / 分析与比较检索)
* 包括“为什么”、“如何权衡”、“多因素比较和规划”等。

标注方式为:将一个会话内的全部查询串联,交由大语言模型进行意图分类,并在样本上使用另一模型进行交叉验证,确保了标签的可靠性。

统计结果显示,日志中以陈述型任务为主,其次是推理型任务,过程型任务占比较小。不同任务意图下,会话长度与检索配置存在明显差异。例如,过程型任务倾向于一次性拉取更多文档,而推理型任务的查询文本通常更长,且前后变化幅度更大。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

4.2 四类轨迹改写动作

在单个会话内部,相邻查询之间的变化被划分为四种改写动作:

  1. 专化:增加约束,下钻到更具体的条件或子范围。
  2. 泛化:去除约束,将查询放宽到更一般的描述。
  3. 探索:在同一主题下转向新的侧面或子问题,例如从“定位”转向“属性信息”。
  4. 重复:语义基本不变的轻微改写或直接重试,例如改写语序、替换同义表达。

这些标签基于大语言模型对查询对的判别结果获得,并结合向量相似度和检索结果重叠进行验证。整体来看,智能体呈现出明显的“下钻偏好”:专化与探索动作使用频率较高,泛化相对稀少。而在许多事实型会话的后期,重复动作显著增多,形成“重试循环”。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

另一方面,智能体也表现出一定的“重置-再细化”模式:智能体先在一个宽泛主题上进行专化(例如从“拿破仑战役”收窄到“1796年意大利战役”),随后通过去除约束进行一次泛化(得到更短、更宽泛的查询),再沿着另一个侧面重新专化(切换到“埃及远征”等新的细化方向)。

从查询长度的变化也能看出,专化通常会拉长查询,而泛化则会缩短查询。整体上,泛化在这里更像是一种轻量级回溯,用于在不同细化分支之间切换,而非持续性地将查询维持在宽泛层级。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

05 Agent对检索信息的具体利用:CTAR指标

在多轮检索中,一个关键问题是:新的查询在多大程度上受到了既有检索信息的影响。由于日志中没有点击、停留时间等显性交互信号,论文提出了一个间接度量指标:CTAR

CTAR的计算方法概括如下:
* 对相邻查询对 q_k → q_{k+1} 进行分词与停用词过滤。
* 找出 q_{k+1} 中首次出现的“新词”。
* 在上一步或累积至今的历史检索结果中,检查这些新词是否以词面形式出现。
* CTAR 即为“在上下文中出现的新词占全部新词的比例”。

该指标带来的核心发现包括:

  1. 整体CTAR超过一半:大约一半以上的新词可以在之前检索到的文档中找到。这表明,在相当多的步骤中,智能体并非完全凭空提出新的条件,而是从已获取信息中采纳术语和约束。
  2. 不同轨迹改写动作的CTAR存在显著差异:专化和探索动作的CTAR明显高于平均水平,说明这两类改写更依赖已有文档信息;重复动作的CTAR则较低,通常对应表述上的微调或重试,而非基于新信息的策略调整。
  3. 历史上下文具有额外贡献:仅考虑上一轮检索结果时,CTAR较低;将更早步骤的文档一并纳入后,CTAR稳定提升,说明部分新词来源于更早的检索信息,智能体在一定程度上会“回溯”历史上下文。

CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式 CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式

需要强调的是,CTAR仅刻画“新词在检索信息中的可追溯性”,并不直接等价于因果利用。但由于其定义简单且易于解释,适合作为衡量“是否参考检索上下文”的粗粒度指标。

06 对Agentic Search系统设计的启示

基于上述行为分析与CTAR指标,论文在结尾讨论了若干与系统设计直接相关的启示:

  1. 重复动作可视为潜在“停滞信号”:在大量陈述型会话中,随着Agent步骤推进,重复改写的占比明显提高,其检索结果高度重叠且CTAR较低。这种模式可以视为系统进入“原地重试”的信号。在工程上,可以基于重复率、结果重叠度和CTAR等联合特征,检测并中断重试循环,强制触发泛化或探索策略,或切换到更高配置的工具链。
  2. 检索预算应随任务意图与轨迹自适应调整:日志表明,现有许多智能体将检索深度K设置为固定值,在同一会话内几乎不做调整。然而,不同意图和轨迹状态对检索策略的需求显然不同。更合理的设计是,先对会话意图进行识别,再结合当前轨迹动态调整top-K、上下文长度与工具组合,而非采用全局统一配置。
  3. 将CTAR等“信息采纳率”指标纳入系统监控:CTAR在不同改写类型之间具有明显区分度。在专化和探索步骤中,CTAR高时往往对应基于检索信息的实质推进;而重复步骤中CTAR较低则更可能反映策略停滞。因此,可以将此类指标纳入系统的观测与调度逻辑:当长时间观测到CTAR偏低或在特定模式下急剧下降时,触发算法层或工作流层面的干预与重规划。

07 结语

整体来看,这项工作完成了三件具有基础设施意义的事情:

  1. 提供首个开源的Agentic Search行为日志数据集:基于DRGym平台采集并清洗的1400万+请求、约400万会话,在经过匿名化处理后,已在Hugging Face平台公开,为后续研究提供了可复现的行为数据基础。
  2. 提出面向Agentic Search的“意图–轨迹–信息利用”分析框架:通过三类会话意图、四类轨迹改写动作以及CTAR指标,从结构和内容两个维度刻画智能体搜索过程,为后续的行为建模、策略比较和训练目标设计提供了分析工具。
  3. 将若干经验性观察固化为可量化的设计建议:具体包括,将重复改写视作停滞信号、依据任务意图与轨迹模式自适应调整检索预算,以及通过检索信息采纳率监控智能体是否真正“读取并利用”检索结果。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20897

(0)
上一篇 2026年2月9日 上午8:09
下一篇 2026年2月9日 上午8:54

相关推荐

  • 性能飙升8倍!Vortex RISC-V GPGPU通过解耦控制流与内存访问实现革命性突破

    关键词: RISC-V GPGPU 、Vortex、控制流管理、 解耦内存访问 、硬件优化 、性能加速 从开源 GPU 的机遇与挑战说起。在当今计算领域,图形处理器(GPU)已从专为图形渲染设计的硬件,演变为支撑人工智能、科学计算和高性能计算的关键通用计算平台。 然而,绝大多数 GPU 研究依赖于 NVIDIA 等商业 GPU 的模拟框架,这些框架虽然功能强…

    2026年1月19日
    36800
  • Anthropic逆天狂飙:美国市场份额70%、年化收入200亿美元,Claude全面碾压OpenAI

    Anthropic的市场表现引发了广泛关注。数据显示,截至2026年2月,其在美国AI市场的份额已迅速增长至近70%,实现了对OpenAI的反超。 在约一年时间内,ChatGPT原本占据主导的市场份额,大部分已被Claude系列产品所获取。 更引人注目的是其财务表现。据报道,Anthropic的年化收入(ARR)已接近200亿美元,并在两周内增长了约50亿美…

    2026年3月5日
    31100
  • MiniMax M2.5引爆AI需求:周调用量破3T,开源Agent生态全面接入

    这个春节,MiniMax 杀疯了。 2 月 20 日,港股马年首个交易日,MiniMax 收盘股价报涨 14.52%,市值一度冲破 3042 亿港元。 这轮上涨并非只是资本市场的情绪宣泄。 过去两年,AI 行业的叙事几乎集中在供给侧,比如更强的模型、更快的芯片、更大的数据中心。然而,制约 AI 产业规模化落地的,除了供给侧的能力上限外,还有大量长期憋着、始终…

    2026年2月25日
    22600
  • 算力基建危机:从微软GPU闲置到太空数据中心革命

    当前全球AI算力竞赛正面临一个被长期忽视的底层危机:芯片制造能力已远超基础设施承载极限。近期两则看似独立的新闻——微软囤积GPU却无法部署、英伟达H100被发射至太空组建数据中心——实则共同揭示了算力生态系统的结构性失衡。本文将深入剖析这一困境的技术根源、产业影响与创新解决方案。 微软CEO萨提亚·纳德拉在与OpenAI山姆·奥特曼的对话中透露,公司手握大量…

    2025年11月4日
    18600
  • GPT-5.1悄然上线:自适应推理与人格化交互如何重塑AI对话体验

    近日,OpenAI在未进行大规模宣传的情况下,向部分付费用户推送了GPT-5.1版本。这一更新并非简单的迭代,而是通过引入“即时思考”(GPT-5.1 Instant)与“深度思考”(GPT-5.1 Thinking)双模式架构,重新定义了AI对话系统的响应机制。新版本的核心创新在于其自适应推理能力——系统能够根据查询的复杂程度自动匹配至合适的处理模式,从而…

    2025年11月13日
    22600