OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

一直以来,高性能的深度搜索智能体(Search Agent)领域仿佛被一道“数据护城河”所隔绝。尽管开源模型层出不穷,但决定智能体能力上限的高质量训练数据——尤其是包含复杂决策与工具调用轨迹的数据——却始终被大型科技企业严密掌控。这种数据稀缺的局面,严重制约了更广泛研究社区在该领域的创新与探索。

今天,这一现状被上海交通大学的研究团队彻底打破。他们推出了 OpenSeeker,这是首个由纯学术团队打造、完整开源模型与100%全量训练数据的前沿深度搜索智能体。

OpenSeeker 证明,无需依赖海量算力堆砌,凭借极高品质的数据合成,学术界同样能产出顶尖成果。在同等规模(约300亿参数、纯ReAct架构)下,OpenSeeker 仅使用 11.7k 合成样本进行单轮监督微调(SFT),便在多个权威评测榜单上取得了领先(SOTA)成绩。

项目资源
* GitHub 仓库: https://github.com/rui-ye/OpenSeeker
* 全量训练数据: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
* 模型权重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
* 论文 (Huggingface): https://huggingface.co/papers/2603.15594
* 论文 (arXiv): https://arxiv.org/pdf/2603.15594

核心亮点速览

  • 打破数据垄断:由纯学术团队开发,完整开源所有训练数据(问答对及完整交互轨迹)与模型,为社区提供了高质量的研究基础,降低探索下一代搜索智能体的门槛。
  • 跨榜单领先表现:在 BrowseComp-ZH 榜单上达到 48.4% 的得分,超越了某大厂采用持续预训练、监督微调和强化学习多阶段复杂训练方案的模型(46.7%)。在约300亿参数的纯SFT模型中,于多个榜单(BrowseComp 29.5 / xbench 74.0 / WideSearch 59.4)全面取得最佳成绩。

核心技术揭秘:突破数据瓶颈的高质量合成方案

有效训练深度搜索智能体的核心,在于解决两大关键问题:
1. 构建足够高难度的问答任务,以激发模型“推理→工具调用→处理反馈”的多轮复杂交互能力。
2. 通过稳定可复现的方法生成高质量解题轨迹,确保模型学到的是泛化性强的策略,而非偶然的成功模式。

为此,OpenSeeker 提出了 “基于真实网页结构的事实锚定问答构建”“动态去噪轨迹合成” 方法。

1. 基于事实锚定的问答构建:从真实网页图谱构造高难度多跳问题
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
为避免模型通过简单模式匹配“走捷径”,OpenSeeker 直接从海量真实网页的链接图结构进行逆向工程。
* 从随机种子页面出发进行拓扑扩展,寻找互联的信息簇并提取实体子图。
* 引入实体混淆机制,将具体实体模糊化,把简单事实转化为需要多步推理的复杂谜题。
此方法确保了数据的真实性与高推理难度,从结构上强制模型进行多步导航与深度思考。

2. 动态去噪轨迹合成:强化嘈杂环境下的核心信息提取能力
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
真实网页环境充满无关信息噪音。为合成高质量动作轨迹,OpenSeeker 设计了一套非对称的“动态上下文去噪”策略
* 生成阶段(教师模型):引入回顾性总结,将上一步嘈杂的工具返回结果压缩为干净摘要,让教师模型在无噪上下文中生成专家级推理与工具调用。
* 训练阶段(学生模型):训练时输入原始的、未经压缩的嘈杂工具返回结果,迫使模型学习预测教师模型的高质量决策。
该方法使 OpenSeeker 学会了从嘈杂的真实网页中有效提取与去噪的核心能力。

实验结果:11.7k 数据的越级挑战

媲美大厂资源密集型模型:仅用11.7k样本进行单轮SFT,OpenSeeker 便展现出强大竞争力。在 BrowseComp-ZH 榜单上,其 48.4% 的得分超越了经历多阶段复杂训练的大厂模型(46.7%)。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

纯SFT+ReAct架构下的领先表现:在同为SFT训练的ReAct智能体对比中,OpenSeeker 凭借11.7k数据,在 BrowseComp、BrowseComp-ZH、xbench 和 WideSearch-EN 四大榜单上均取得最优成绩,显著领先于其他同类开源模型。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

凸显极高数据质量:在控制数据量(10k-15k级别)可比的情况下,OpenSeeker 的数据质量明显优于其他同类开源方案的组合版本,各项指标保持显著优势。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

远超基准的数据难度:量化分析显示,合成数据难度极高。例如,合成中文数据的每条轨迹平均需进行 46.35次 工具调用,平均长度达 76.1k tokens,远超 BrowseComp-ZH 基准(26.98次,15.1k tokens)。英文数据难度也与顶尖基准相当。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

社区反响:推动领域发展的底层开源支撑

OpenSeeker 的发布在海外学术与开源社区引发热烈讨论,被视为打破壁垒、推动领域透明化发展的重要一步。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
社区评价聚焦于:
* 明确创新边界:全量数据开源让研究者能清晰区分,性能提升是源于方法创新,还是依赖闭源数据红利。
* 打破数据垄断:研究者得以在无“数据守门人”限制的环境中,自由构建多步推理智能体。
* 呼唤透明度:“AI智能体终于迎来数据透明”、“开源再次胜利”等声音,体现了社区对开放协作的期待。

OpenSeeker 不仅是一个性能领先的模型,更是赋能整个学术界探索下一代搜索智能体的坚实基座。

OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索智能体,从根本上打破了长期以来由大型科技公司构筑的数据壁垒。它为科研社区提供了可直接使用、可复现、可扩展的高质量研究基础。这一开源举措显著降低了前沿搜索智能体研究的门槛,使研究者能够更专注于方法本身的创新,而无需受限于数据获取的困难。

作者介绍
本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人。指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI 智能体与智能科学等领域。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28077

(0)
上一篇 2026年4月1日 上午11:11
下一篇 2026年4月1日 上午11:12

相关推荐

  • 清华开源AI课堂平台OpenMAIC:让AI学会“教人学习”,打造L4级自动驾驶式课堂体验

    最近,科技圈掀起了一股“养龙虾”的热潮。OpenClaw 的横空出世,引发了广泛关注。与此同时,清华大学的研究团队也开源了一只特别的“龙虾”。 这只“龙虾”的目标并非操控电脑或执行任务,而是致力于一项更具根本性的工作:让 AI 学会“教人学习”。它所构建的,是一种能够“讲、问、互动”的全新课堂形态。 设想一个场景:面对火爆的 OpenClaw,零基础用户想学…

    2026年3月16日
    3.3K00
  • GitHub Star 数最多的 10+ 款开源无代码 AI 工具

    不久之前,用 AI 构建任何东西通常只有两种可能: 你是一名机器学习工程师 或者你根本就做不出来 现在,这一切变得非常不同。 今天,No‑Code AI 工具让开发者、创业者、设计师,甚至非技术团队都能构建严肃的 AI 产品——无需编写复杂的 ML 管道或从零训练模型。 但有个关键点:大多数榜单都聚焦于付费 SaaS 工具。这篇不是。 本文专注于开源 No‑…

    2025年12月25日
    58200
  • GitHub精选:三大AI与效率工具,智能图表、OCR识别、PDF处理一键搞定

    智能图表生成工具 Smart Excalidraw 是一个基于 Next.js 构建的智能图表生成工具,它巧妙地将大语言模型与 Excalidraw 绘图工具相结合。用户只需用自然语言描述需求,AI 即可自动生成各类专业图表。 该工具能够生成技术架构图、信息图等多种可视化内容。 生成后的图表完全基于 Excalidraw 格式,用户可以在其熟悉的界面中进行二…

    2025年11月8日
    34100
  • GitNexus:为AI编程助手装上“代码透视眼”,彻底告别瞎改代码时代

    如今的开发工具,正从早期的简单代码补全,向能够自主工作的智能体(Agent)方向快速演进。 诸如 Cursor 和 Claude Code 等 AI 编程助手,已成为许多开发者日常必备的工具。 然而,使用 AI 辅助编程时,一个令人头疼的问题是:刚刚修复了一个 Bug,却可能在意想不到的地方引入三个新的 Bug。 其根本原因在于,当前的 AI 编程助手普遍缺…

    2026年2月26日
    1.8K00
  • 字节开源Deer-Flow2登顶GitHub Trending:35.3k星超级智能体框架,开箱即用多智能体协同

    字节开源Deer-Flow 2登顶GitHub Trending:35.3k星超级智能体框架,开箱即用多智能体协同 字节跳动开源的 Deer-Flow 2 超级智能体管理框架,在发布后迅速登上GitHub Trending榜首,目前已收获35.3k Star。 Deer-Flow 2采用模块化多智能体架构,智能体之间通过LangGraph实现协同合作。框架主…

    2026年3月23日
    84800