训练一个能够像人类研究员一样执行“搜索→浏览→推理”的深度研究智能体,其核心瓶颈往往不在于模型本身的能力,而在于高质量、长程研究轨迹数据的严重匮乏。现有的数据采集方法要么依赖昂贵且不稳定的在线搜索API,要么只能生成2-5轮的浅层交互,远不足以覆盖真实深度研究中动辄数十轮甚至上百轮的复杂推理链条。
针对这一痛点,来自德克萨斯农工大学、滑铁卢大学、加州大学圣地亚哥分校等机构的研究团队提出了 OpenResearcher:一个完全开源、可复现的离线深度研究轨迹合成流水线。这是首个能够训练出在长程研究任务上与专用系统相媲美的模型的开源方案,其合成的数据也已被用于NVIDIA的基座模型训练。该方法的核心在于:首先一次性在线收集语料,构建一个包含1500万篇候选文档的本地搜索引擎;随后,由教师模型在完全离线的环境中,通过调用 search、open、find 三种工具,合成了超过 9.7万条 长程研究轨迹,其中大量轨迹包含100次以上的工具调用。
利用这些轨迹对一个 30B 参数的模型进行监督微调,即可在离线深度研究基准数据集 BrowseComp-Plus 上达到 54.8% 的准确率。相较于基座模型,这实现了 34.0个百分点 的绝对性能提升,并一举超越了 GPT-4.1 (36.4%)、Claude-4-Opus (36.8%) 等强大的闭源模型。对于在线深度研究基准数据集,该模型同样全面超越了现有开源系统。值得注意的是,所有这些性能增益均来自离线合成的数据,无需任何在线训练。

图1:BrowseComp-Plus基准数据集上的性能-参数量对比。OpenResearcher (30B) 以54.8%的准确率高居左上角,在性能/参数比维度上显著领先于GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro等闭源模型,同时也超越了通义DeepResearch (44.5%) 等专用深度研究系统。

- 论文链接:https://arxiv.org/abs/2603.20278
- 博客链接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
- 代码链接:https://github.com/TIGER-AI-Lab/OpenResearcher
- 模型链接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
- 数据集链接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
- Demo链接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher
深度研究轨迹合成的挑战
随着 DeepSeek-R1 等工作的推出,从大型推理模型中蒸馏长程推理轨迹已成为主流范式,OpenThoughts、OpenMathReasoning 等项目相继涌现。然而,当训练目标从“数学推理”拓展到“深度研究”——即智能体需要迭代搜索、聚合异构证据、进行多步推理——高质量轨迹的获取就变得尤为困难。
现有方案主要受制于三重瓶颈:
* 成本高昂:每一条失败的搜索路径都会消耗API调用配额,大规模合成意味着数万美元级别的开支。
* 不可复现:互联网内容瞬息万变,同一查询在不同时刻可能返回截然不同的结果,导致获取的轨迹难以稳定复现。
* 不可分析:在线搜索环境本质上是黑盒,研究者无法精确追踪“关键证据在哪一步被发现”、“搜索策略的偏差出在哪里”等关键问题,严重限制了对智能体行为的系统性研究。
这促使研究团队提出一个核心问题:能否将“搜索→浏览→推理”循环中昂贵的前两步从在线环境迁移到更可控的离线环境中,以零边际成本、完全可复现的方式大规模合成高质量深度研究轨迹?
OpenResearcher:离线深度研究轨迹合成流水线
OpenResearcher 的核心设计理念是将语料构建与轨迹生成彻底解耦:先通过一次性在线收集构建离线语料库与搜索引擎,然后在完全离线的本地环境中规模化合成研究轨迹。具体而言,流水线包含以下三个阶段。

图2:OpenResearcher 总览。流水线分三个阶段:(1) 从 MiroVerse 筛选约6,000个高难度QA问题;(2) 一次性在线收集约1万篇关键文档,并与1,500万篇干扰文档合并构成带FAISS索引的离线语料库;(3) 教师模型GPT-OSS-120B在离线环境中通过三种工具生成超9.7万条长程研究轨迹。
阶段一:高难度问题收集
深度研究轨迹的质量起点是问题的质量。传统QA数据集的问题通常只需2-5步检索即可回答,远达不到深度研究所需的复杂度。研究团队从 MiroVerse-v0.1 中随机采样10%,得到约 6,000个 问答对。这些问题天然要求长程多跳推理与异构证据整合,实测中即便是强大的教师模型也往往需要数十次工具调用才能作答,其中相当一部分需要超过100次。
阶段二:离线搜索引擎构建
轨迹合成有一个硬性前提:目标证据必须可检索。否则,合成失败可能是搜索策略的问题,也可能是语料中缺少相关文档,这种歧义会严重干扰下游分析。为消除歧义,团队采取了“答案引导的在线文档收集”策略:对每个问答对,将问题与参考答案拼接构造查询,通过 Serper API 一次性检索并清洗去重,获得约 1万篇 关键文档。随后将这些关键文档与从 FineWeb 中采样的约 1,500万篇 干扰文档(约10万亿tokens)合并构成离线语料库。全部文档使用 Qwen3-Embedding-8B 向量化,并通过 FAISS 建立索引。这一设计保证了“答案确实存在于语料中”,同时海量干扰文档模拟了真实网络的噪声与复杂度,使合成轨迹兼具可控性与真实感。

图3:OpenResearcher 使用的三种工具。以“哪些MIT研究者获得了INFORMS奖项”为例:智能体可先调用 Search 获取搜索摘要列表(左栏),再调用 Open 拉取文档全文(中栏),最后调用 Find 在文档内精确定位关键字符串“MIT”(右栏,高亮显示)。三种工具实现了多尺度渐进式信息发现。
阶段三:浏览建模与轨迹合成
OpenResearcher 利用三种工具对智能体的在线浏览行为进行抽象,完整建模了人类的研究行为模式:
* Search:向离线搜索引擎发出自然语言查询,返回top-K结果(含标题、URL、摘要片段),对应人类“广泛搜索、识别候选来源”的行为。
* Open:根据URL获取文档全文内容,对应人类“点开网页、通读全文”的行为。
* Find:在当前已打开的文档中执行精确字符串匹配,对应人类“Ctrl+F页面内查找”的行为,用于命名实体查找、事实核验和证据锚定。
数据合成与模型训练
研究团队以 GPT-OSS-120B 作为教师模型,为每个研究问题生成了 16 条不同的推理轨迹,以捕捉多样化的研究路径。经过轻量级过滤后,最终构建了一个包含超过 9.7 万条轨迹的数据集,其推理深度从十余步到百余步不等。
模型训练与性能表现
训练设置:研究以 NVIDIA Nemotron-3-Nano-30B-A3B 模型为基座,该模型采用混合 Mamba-Transformer MoE 架构,激活参数仅为 3.2B。从合成数据中筛选出约 5.5 万条答案正确的轨迹进行监督微调。整个训练过程在 8 张 NVIDIA H100 GPU 上完成,耗时约 8 小时,展示了中小型团队可负担的算力需求。
离线深度研究评测:在离线深度研究基准数据集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得了 54.8% 的准确率,显著超越了多个主流闭源模型:GPT-4.1 (36.4%)、Claude-4-Opus (36.8%)、Gemini-2.5-Pro (29.5%)、DeepSeek-R1 (16.4%) 以及通义 DeepResearch (44.5%)。相较于基座模型,其性能实现了 34.0 个百分点的绝对提升。这表明,仅通过离线合成轨迹的监督微调,无需强化学习或在线交互,即可在深度研究任务上获得显著的性能增益。
在线深度研究评测:在三个依赖在线搜索 API 的基准数据集上,OpenResearcher 同样表现优异:BrowseComp (26.3%)、GAIA (64.1%)、xbench-DeepSearch (65.0%),全面超越了 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等开源系统。关键在于,所有这些性能提升完全来源于离线环境合成的轨迹。模型从未在真实的在线深度研究数据上进行训练,却能有效迁移到动态的搜索环境中。

图 4:深度研究基准测试性能对比。左表(离线,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超过 GPT-4.1(36.4%)和通义 DeepResearch(44.5%),较基座模型绝对提升 34.0 个百分点。右表(在线,BrowseComp / GAIA / xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量级开源系统。
关键发现与洞见
失败不在于步数,而在于策略:分析发现,失败轨迹的平均工具调用次数(71.7 次)几乎是成功轨迹(38.4 次)的两倍,且额外调用主要集中在 search 操作上。失败并非源于“探索不充分”,而是陷入了反复重构查询却无法收敛的困境。这表明,查询构造能力和搜索策略的质量是决定深度研究成败的关键。

图 5:工具调用次数分布与正确 / 错误轨迹对比。左图(成功):调用次数集中在 10-40 次,均值 38.4,中位数 24.0。中图(失败):呈双峰形态,均值 71.7,中位数 79.0,反映反复无效的搜索。右图:失败轨迹的 search 调用均值(48.7)远超成功轨迹(22.1),而 find 使用频率两组相近,说明症结在搜索策略而非文档内定位。
“答案正确性”并非唯一有价值的训练信号:实验发现,仅使用正确轨迹训练的模型准确率为 54.81%,仅使用错误轨迹训练的模型为 55.06%,混合全部轨迹训练的模型为 54.46%,三者差异不超过 0.6 个百分点。这表明,轨迹中蕴含的搜索结构、工具调用模式、证据检查策略等过程性信号的价值不亚于最终答案的正确性,研究者无需过度激进地过滤训练数据。另一方面,若移除一次性在线收集“黄金文档”(gold document)的步骤,下游准确率会从 54.81% 骤降至 6.35%,证明此步骤是离线合成流水线得以运转的关键。

图 6:左表:仅用正确(54.81%)/ 错误(55.06%)/ 全部轨迹(54.46%)训练,在 BrowseComp-Plus 上的准确率相差不超过 0.6 个百分点,说明过程性信号价值不亚于答案正确性。右表:移除 gold documents 的收集过程后下游准确率从 54.81% 降至 6.35%,证明一次性在线文章收集这一步不可或缺。
智能体探索轮数预算存在边际递减效应:准确率和检索到黄金文档的命中率随最大可探索轮数预算增加而上升,但在约 100 轮后增长趋于平缓。这说明长程探索有益,但在智能体获得充分的检索和定位机会后,单纯延长推理链的边际收益明显递减。

图 7:准确率(蓝线)和检索 gold documents 的命中率(橙线)随最大可探索轮数预算增加持续上升,但在约 100 轮后趋于饱和(准确率~58.3%,命中率~49.3%),表明长程探索有益但存在边际递减效应。
三种浏览器工具缺一不可:消融实验清晰地展示了三种工具(search, open, find)的递进价值。智能体仅能调用 search 时准确率为 43.86%,加入 open 后升至 56.39%,再引入 find 后达到 62.17%,同时工具调用总次数和 token 消耗均下降。这表明,文档级访问是深度研究的“刚需”,而页面内证据定位功能则在提升精度的同时降低了冗余浏览。

图 8:左表:准确率从仅能调用 search(43.86%)→ 可以调用 open(56.39%)→ 还可以调用 find(62.17%)稳步提升,同时工具调用次数和 token 消耗持续下降。右表:P (correct|open-hit) = 86.72% 远高于 P (correct|search-hit) = 61.84%,表明“搜到”与“看到”对于准确率的帮助存在显著差异。
检索时机与最终准确率的关系:只要智能体在任意轮次打开过至少一篇黄金文档,其最终准确率就能稳定维持在 85% 以上;而从未打开过黄金文档的轨迹,准确率仅为 7.9%。因此,“看到”与研究相关的证据通常是正确回答的必要条件,但并非充分条件。

图 9:首次打开 gold document 的时机与最终准确率的关系。只要打开过至少一篇 gold document,准确率均稳定在 85% 以上;完全未命中的 303 条轨迹准确率则仅有 7.9%。
成本分析:从数万美元到零

合成这 9.7 万条轨迹共涉及约 576 万次搜索请求。若使用在线商业 API(如 Serper API),成本约为 5,760 美元;若使用 SerpAPI,成本则高达 28,800 美元。而 OpenResearcher 采用的离线检索器将这一成本降至零。离线方案还额外提供了以下优势:无速率限制(支持大规模并行合成)、完全确定性(确保长程研究轨迹完美可复现)、零外部依赖(便于开放共享与社区复现)。
总结与展望
OpenResearcher 为深度研究智能体的训练数据问题提供了一条务实高效的解决路径:将“搜索→浏览→推理”循环中昂贵且不稳定的前两步(搜索与浏览),从在线环境迁移到更可控的离线环境中,以可复现、零边际成本的方式大规模合成训练轨迹。
在方法层面,三种工具(search + open + find)对智能体在线浏览行为的抽象,忠实模拟了人类的研究过程,使合成轨迹包含了从搜索查询、文档阅读到证据定位的完整行为链。
在实证层面,一个仅 30B 参数(3.2B 激活)的模型通过监督微调,即可在多个基准上超越参数量数倍于己的闭源模型,且全部增益来源于离线合成数据。
更具长远价值的是,离线环境的完全可控性为系统性地分析深度研究流水线的各个设计维度(如数据过滤策略、语料覆盖、智能体配置、工具空间设计、检索与推理的交互关系等)提供了理想的实验平台,为这一领域的未来优化指明了方向。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27731


