OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

一直以来，高性能的深度搜索智能体（Search Agent）领域仿佛被一道“数据护城河”所隔绝。尽管开源模型层出不穷，但决定智能体能力上限的高质量训练数据——尤其是包含复杂决策与工具调用轨迹的数据——却始终被大型科技企业严密掌控。这种数据稀缺的局面，严重制约了更广泛研究社区在该领域的创新与探索。

今天，这一现状被上海交通大学的研究团队彻底打破。他们推出了 OpenSeeker，这是首个由纯学术团队打造、完整开源模型与100%全量训练数据的前沿深度搜索智能体。

OpenSeeker 证明，无需依赖海量算力堆砌，凭借极高品质的数据合成，学术界同样能产出顶尖成果。在同等规模（约300亿参数、纯ReAct架构）下，OpenSeeker 仅使用 11.7k 合成样本进行单轮监督微调（SFT），便在多个权威评测榜单上取得了领先（SOTA）成绩。

项目资源
* GitHub 仓库: https://github.com/rui-ye/OpenSeeker
* 全量训练数据: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
* 模型权重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
* 论文 (Huggingface): https://huggingface.co/papers/2603.15594
* 论文 (arXiv): https://arxiv.org/pdf/2603.15594

核心亮点速览

打破数据垄断：由纯学术团队开发，完整开源所有训练数据（问答对及完整交互轨迹）与模型，为社区提供了高质量的研究基础，降低探索下一代搜索智能体的门槛。
跨榜单领先表现：在 BrowseComp-ZH 榜单上达到 48.4% 的得分，超越了某大厂采用持续预训练、监督微调和强化学习多阶段复杂训练方案的模型（46.7%）。在约300亿参数的纯SFT模型中，于多个榜单（BrowseComp 29.5 / xbench 74.0 / WideSearch 59.4）全面取得最佳成绩。

核心技术揭秘：突破数据瓶颈的高质量合成方案

有效训练深度搜索智能体的核心，在于解决两大关键问题：
1. 构建足够高难度的问答任务，以激发模型“推理→工具调用→处理反馈”的多轮复杂交互能力。
2. 通过稳定可复现的方法生成高质量解题轨迹，确保模型学到的是泛化性强的策略，而非偶然的成功模式。

为此，OpenSeeker 提出了 “基于真实网页结构的事实锚定问答构建” 与 “动态去噪轨迹合成” 方法。

1. 基于事实锚定的问答构建：从真实网页图谱构造高难度多跳问题
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断
为避免模型通过简单模式匹配“走捷径”，OpenSeeker 直接从海量真实网页的链接图结构进行逆向工程。
* 从随机种子页面出发进行拓扑扩展，寻找互联的信息簇并提取实体子图。
* 引入实体混淆机制，将具体实体模糊化，把简单事实转化为需要多步推理的复杂谜题。
此方法确保了数据的真实性与高推理难度，从结构上强制模型进行多步导航与深度思考。

2. 动态去噪轨迹合成：强化嘈杂环境下的核心信息提取能力
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断
真实网页环境充满无关信息噪音。为合成高质量动作轨迹，OpenSeeker 设计了一套非对称的“动态上下文去噪”策略：
* 生成阶段（教师模型）：引入回顾性总结，将上一步嘈杂的工具返回结果压缩为干净摘要，让教师模型在无噪上下文中生成专家级推理与工具调用。
* 训练阶段（学生模型）：训练时输入原始的、未经压缩的嘈杂工具返回结果，迫使模型学习预测教师模型的高质量决策。
该方法使 OpenSeeker 学会了从嘈杂的真实网页中有效提取与去噪的核心能力。

实验结果：11.7k 数据的越级挑战

媲美大厂资源密集型模型：仅用11.7k样本进行单轮SFT，OpenSeeker 便展现出强大竞争力。在 BrowseComp-ZH 榜单上，其 48.4% 的得分超越了经历多阶段复杂训练的大厂模型（46.7%）。
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

纯SFT+ReAct架构下的领先表现：在同为SFT训练的ReAct智能体对比中，OpenSeeker 凭借11.7k数据，在 BrowseComp、BrowseComp-ZH、xbench 和 WideSearch-EN 四大榜单上均取得最优成绩，显著领先于其他同类开源模型。
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

凸显极高数据质量：在控制数据量（10k-15k级别）可比的情况下，OpenSeeker 的数据质量明显优于其他同类开源方案的组合版本，各项指标保持显著优势。
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

远超基准的数据难度：量化分析显示，合成数据难度极高。例如，合成中文数据的每条轨迹平均需进行 46.35次 工具调用，平均长度达 76.1k tokens，远超 BrowseComp-ZH 基准（26.98次，15.1k tokens）。英文数据难度也与顶尖基准相当。
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

社区反响：推动领域发展的底层开源支撑

OpenSeeker 的发布在海外学术与开源社区引发热烈讨论，被视为打破壁垒、推动领域透明化发展的重要一步。
OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断
社区评价聚焦于：
* 明确创新边界：全量数据开源让研究者能清晰区分，性能提升是源于方法创新，还是依赖闭源数据红利。
* 打破数据垄断：研究者得以在无“数据守门人”限制的环境中，自由构建多步推理智能体。
* 呼唤透明度：“AI智能体终于迎来数据透明”、“开源再次胜利”等声音，体现了社区对开放协作的期待。

OpenSeeker 不仅是一个性能领先的模型，更是赋能整个学术界探索下一代搜索智能体的坚实基座。

OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索智能体，从根本上打破了长期以来由大型科技公司构筑的数据壁垒。它为科研社区提供了可直接使用、可复现、可扩展的高质量研究基础。这一开源举措显著降低了前沿搜索智能体研究的门槛，使研究者能够更专注于方法本身的创新，而无需受限于数据获取的困难。

作者介绍
本文共同第一作者为上海交通大学博士生杜钰文与叶锐，其中叶锐为项目负责人。指导老师为上海交通大学人工智能学院陈思衡教授，主要研究方向为 AI 智能体与智能科学等领域。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28077

OpenSeeker：首个开源全量训练数据的深度搜索Agent，纯学术团队打破大厂数据垄断

核心亮点速览

核心技术揭秘：突破数据瓶颈的高质量合成方案

实验结果：11.7k 数据的越级挑战

社区反响：推动领域发展的底层开源支撑

相关推荐

清华联合开源！首个基于MCP的RAG框架UltraRAG：零代码构建多模态检索增强生成系统

开源3天狂揽2万星！Open Design复刻Claude Design，一句话生成可交付的HTML/PPT

GitHub 六大 Agent 开源项目：从零构建智能体，打破信息壁垒

iPhone 17 Pro跑400B大模型！Flash-MoE让端侧AI突破物理极限

国产AI开发平台BISHENG：GitHub斩获10K星，企业级LLM DevOps解决方案