OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

一直以来,高性能的深度搜索智能体(Search Agent)领域仿佛被一道“数据护城河”所隔绝。尽管开源模型层出不穷,但决定智能体能力上限的高质量训练数据——尤其是包含复杂决策与工具调用轨迹的数据——却始终被大型科技企业严密掌控。这种数据稀缺的局面,严重制约了更广泛研究社区在该领域的创新与探索。

今天,这一现状被上海交通大学的研究团队彻底打破。他们推出了 OpenSeeker,这是首个由纯学术团队打造、完整开源模型与100%全量训练数据的前沿深度搜索智能体。

OpenSeeker 证明,无需依赖海量算力堆砌,凭借极高品质的数据合成,学术界同样能产出顶尖成果。在同等规模(约300亿参数、纯ReAct架构)下,OpenSeeker 仅使用 11.7k 合成样本进行单轮监督微调(SFT),便在多个权威评测榜单上取得了领先(SOTA)成绩。

项目资源
* GitHub 仓库: https://github.com/rui-ye/OpenSeeker
* 全量训练数据: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
* 模型权重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
* 论文 (Huggingface): https://huggingface.co/papers/2603.15594
* 论文 (arXiv): https://arxiv.org/pdf/2603.15594

核心亮点速览

  • 打破数据垄断:由纯学术团队开发,完整开源所有训练数据(问答对及完整交互轨迹)与模型,为社区提供了高质量的研究基础,降低探索下一代搜索智能体的门槛。
  • 跨榜单领先表现:在 BrowseComp-ZH 榜单上达到 48.4% 的得分,超越了某大厂采用持续预训练、监督微调和强化学习多阶段复杂训练方案的模型(46.7%)。在约300亿参数的纯SFT模型中,于多个榜单(BrowseComp 29.5 / xbench 74.0 / WideSearch 59.4)全面取得最佳成绩。

核心技术揭秘:突破数据瓶颈的高质量合成方案

有效训练深度搜索智能体的核心,在于解决两大关键问题:
1. 构建足够高难度的问答任务,以激发模型“推理→工具调用→处理反馈”的多轮复杂交互能力。
2. 通过稳定可复现的方法生成高质量解题轨迹,确保模型学到的是泛化性强的策略,而非偶然的成功模式。

为此,OpenSeeker 提出了 “基于真实网页结构的事实锚定问答构建”“动态去噪轨迹合成” 方法。

1. 基于事实锚定的问答构建:从真实网页图谱构造高难度多跳问题
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
为避免模型通过简单模式匹配“走捷径”,OpenSeeker 直接从海量真实网页的链接图结构进行逆向工程。
* 从随机种子页面出发进行拓扑扩展,寻找互联的信息簇并提取实体子图。
* 引入实体混淆机制,将具体实体模糊化,把简单事实转化为需要多步推理的复杂谜题。
此方法确保了数据的真实性与高推理难度,从结构上强制模型进行多步导航与深度思考。

2. 动态去噪轨迹合成:强化嘈杂环境下的核心信息提取能力
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
真实网页环境充满无关信息噪音。为合成高质量动作轨迹,OpenSeeker 设计了一套非对称的“动态上下文去噪”策略
* 生成阶段(教师模型):引入回顾性总结,将上一步嘈杂的工具返回结果压缩为干净摘要,让教师模型在无噪上下文中生成专家级推理与工具调用。
* 训练阶段(学生模型):训练时输入原始的、未经压缩的嘈杂工具返回结果,迫使模型学习预测教师模型的高质量决策。
该方法使 OpenSeeker 学会了从嘈杂的真实网页中有效提取与去噪的核心能力。

实验结果:11.7k 数据的越级挑战

媲美大厂资源密集型模型:仅用11.7k样本进行单轮SFT,OpenSeeker 便展现出强大竞争力。在 BrowseComp-ZH 榜单上,其 48.4% 的得分超越了经历多阶段复杂训练的大厂模型(46.7%)。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

纯SFT+ReAct架构下的领先表现:在同为SFT训练的ReAct智能体对比中,OpenSeeker 凭借11.7k数据,在 BrowseComp、BrowseComp-ZH、xbench 和 WideSearch-EN 四大榜单上均取得最优成绩,显著领先于其他同类开源模型。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

凸显极高数据质量:在控制数据量(10k-15k级别)可比的情况下,OpenSeeker 的数据质量明显优于其他同类开源方案的组合版本,各项指标保持显著优势。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

远超基准的数据难度:量化分析显示,合成数据难度极高。例如,合成中文数据的每条轨迹平均需进行 46.35次 工具调用,平均长度达 76.1k tokens,远超 BrowseComp-ZH 基准(26.98次,15.1k tokens)。英文数据难度也与顶尖基准相当。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断

社区反响:推动领域发展的底层开源支撑

OpenSeeker 的发布在海外学术与开源社区引发热烈讨论,被视为打破壁垒、推动领域透明化发展的重要一步。
OpenSeeker:首个开源全量训练数据的深度搜索Agent,纯学术团队打破大厂数据垄断
社区评价聚焦于:
* 明确创新边界:全量数据开源让研究者能清晰区分,性能提升是源于方法创新,还是依赖闭源数据红利。
* 打破数据垄断:研究者得以在无“数据守门人”限制的环境中,自由构建多步推理智能体。
* 呼唤透明度:“AI智能体终于迎来数据透明”、“开源再次胜利”等声音,体现了社区对开放协作的期待。

OpenSeeker 不仅是一个性能领先的模型,更是赋能整个学术界探索下一代搜索智能体的坚实基座。

OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索智能体,从根本上打破了长期以来由大型科技公司构筑的数据壁垒。它为科研社区提供了可直接使用、可复现、可扩展的高质量研究基础。这一开源举措显著降低了前沿搜索智能体研究的门槛,使研究者能够更专注于方法本身的创新,而无需受限于数据获取的困难。

作者介绍
本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人。指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI 智能体与智能科学等领域。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28077

(0)
上一篇 2026年4月1日 上午11:11
下一篇 2026年4月1日 上午11:12

相关推荐

  • 清华联合开源!首个基于MCP的RAG框架UltraRAG:零代码构建多模态检索增强生成系统

    首个基于 MCP 的 RAG 框架 UltraRAG:零代码构建多模态检索增强生成系统 UltraRAG 是一个基于 MCP 的开源检索增强生成框架,旨在让用户无需编写代码即可构建复杂的 RAG 系统。 RAG 系统通过让 AI 模型先检索相关信息再生成答案,从而显著提高回答的准确性。 UltraRAG 是由清华大学 THUNLP、东北大学 NEUIR、Op…

    2025年11月19日
    40300
  • 开源3天狂揽2万星!Open Design复刻Claude Design,一句话生成可交付的HTML/PPT

    Anthropic 的 Claude Design 发布没多久,GitHub 上便迅速出现了开源复刻版。 4 月 17 日,Anthropic 正式上线了 Claude Design,基于 Opus 4.7 模型。 只需输入一句话,即可直接生成可交付的设计成品——不是草图,不是线框图,而是完整的 HTML 页面、PPT 或移动端原型。 效果极为震撼,迅速引爆…

    2026年5月5日
    43100
  • GitHub 六大 Agent 开源项目:从零构建智能体,打破信息壁垒

    2025年,无疑是Agent(智能体)元年,GitHub作为重要的学习平台,汇聚了大量优质的开源教程与项目。 01 Hello-Agents 这是由国内社区Datawhale开源的教程,在GitHub上已获得5700+ Star。该教程不仅深入讲解底层原理,更注重实践,手把手指导你编写可运行的Agent代码。它不仅仅是一个代码仓库,更像一本互动式的教科书,旨…

    2025年12月9日
    1.7K00
  • iPhone 17 Pro跑400B大模型!Flash-MoE让端侧AI突破物理极限

    有时候看到一些大模型项目,总会怀疑是不是真的有外星人在干预地球科技。 就比如今天这个。 刚看到这个 Demo 时确实有点想笑,已经很久没见过吐词如此缓慢的大模型了。观感上就像“闪电”老师。 尽管每秒只有 0.6 个 tokens 的输出速度,这依然是一项令人难以置信的成果。因为这是一个运行在 iPhone 17 Pro 上的 400B 大模型! 准确来说,这…

    2026年5月2日
    23900
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    65500