一直以来,高性能的深度搜索智能体(Search Agent)领域仿佛被一道“数据护城河”所隔绝。尽管开源模型层出不穷,但决定智能体能力上限的高质量训练数据——尤其是包含复杂决策与工具调用轨迹的数据——却始终被大型科技企业严密掌控。这种数据稀缺的局面,严重制约了更广泛研究社区在该领域的创新与探索。
今天,这一现状被上海交通大学的研究团队彻底打破。他们推出了 OpenSeeker,这是首个由纯学术团队打造、完整开源模型与100%全量训练数据的前沿深度搜索智能体。
OpenSeeker 证明,无需依赖海量算力堆砌,凭借极高品质的数据合成,学术界同样能产出顶尖成果。在同等规模(约300亿参数、纯ReAct架构)下,OpenSeeker 仅使用 11.7k 合成样本进行单轮监督微调(SFT),便在多个权威评测榜单上取得了领先(SOTA)成绩。
项目资源
* GitHub 仓库: https://github.com/rui-ye/OpenSeeker
* 全量训练数据: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
* 模型权重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
* 论文 (Huggingface): https://huggingface.co/papers/2603.15594
* 论文 (arXiv): https://arxiv.org/pdf/2603.15594
核心亮点速览
- 打破数据垄断:由纯学术团队开发,完整开源所有训练数据(问答对及完整交互轨迹)与模型,为社区提供了高质量的研究基础,降低探索下一代搜索智能体的门槛。
- 跨榜单领先表现:在 BrowseComp-ZH 榜单上达到 48.4% 的得分,超越了某大厂采用持续预训练、监督微调和强化学习多阶段复杂训练方案的模型(46.7%)。在约300亿参数的纯SFT模型中,于多个榜单(BrowseComp 29.5 / xbench 74.0 / WideSearch 59.4)全面取得最佳成绩。
核心技术揭秘:突破数据瓶颈的高质量合成方案
有效训练深度搜索智能体的核心,在于解决两大关键问题:
1. 构建足够高难度的问答任务,以激发模型“推理→工具调用→处理反馈”的多轮复杂交互能力。
2. 通过稳定可复现的方法生成高质量解题轨迹,确保模型学到的是泛化性强的策略,而非偶然的成功模式。
为此,OpenSeeker 提出了 “基于真实网页结构的事实锚定问答构建” 与 “动态去噪轨迹合成” 方法。
1. 基于事实锚定的问答构建:从真实网页图谱构造高难度多跳问题
为避免模型通过简单模式匹配“走捷径”,OpenSeeker 直接从海量真实网页的链接图结构进行逆向工程。
* 从随机种子页面出发进行拓扑扩展,寻找互联的信息簇并提取实体子图。
* 引入实体混淆机制,将具体实体模糊化,把简单事实转化为需要多步推理的复杂谜题。
此方法确保了数据的真实性与高推理难度,从结构上强制模型进行多步导航与深度思考。
2. 动态去噪轨迹合成:强化嘈杂环境下的核心信息提取能力
真实网页环境充满无关信息噪音。为合成高质量动作轨迹,OpenSeeker 设计了一套非对称的“动态上下文去噪”策略:
* 生成阶段(教师模型):引入回顾性总结,将上一步嘈杂的工具返回结果压缩为干净摘要,让教师模型在无噪上下文中生成专家级推理与工具调用。
* 训练阶段(学生模型):训练时输入原始的、未经压缩的嘈杂工具返回结果,迫使模型学习预测教师模型的高质量决策。
该方法使 OpenSeeker 学会了从嘈杂的真实网页中有效提取与去噪的核心能力。
实验结果:11.7k 数据的越级挑战
媲美大厂资源密集型模型:仅用11.7k样本进行单轮SFT,OpenSeeker 便展现出强大竞争力。在 BrowseComp-ZH 榜单上,其 48.4% 的得分超越了经历多阶段复杂训练的大厂模型(46.7%)。
纯SFT+ReAct架构下的领先表现:在同为SFT训练的ReAct智能体对比中,OpenSeeker 凭借11.7k数据,在 BrowseComp、BrowseComp-ZH、xbench 和 WideSearch-EN 四大榜单上均取得最优成绩,显著领先于其他同类开源模型。
凸显极高数据质量:在控制数据量(10k-15k级别)可比的情况下,OpenSeeker 的数据质量明显优于其他同类开源方案的组合版本,各项指标保持显著优势。
远超基准的数据难度:量化分析显示,合成数据难度极高。例如,合成中文数据的每条轨迹平均需进行 46.35次 工具调用,平均长度达 76.1k tokens,远超 BrowseComp-ZH 基准(26.98次,15.1k tokens)。英文数据难度也与顶尖基准相当。
社区反响:推动领域发展的底层开源支撑
OpenSeeker 的发布在海外学术与开源社区引发热烈讨论,被视为打破壁垒、推动领域透明化发展的重要一步。
社区评价聚焦于:
* 明确创新边界:全量数据开源让研究者能清晰区分,性能提升是源于方法创新,还是依赖闭源数据红利。
* 打破数据垄断:研究者得以在无“数据守门人”限制的环境中,自由构建多步推理智能体。
* 呼唤透明度:“AI智能体终于迎来数据透明”、“开源再次胜利”等声音,体现了社区对开放协作的期待。
OpenSeeker 不仅是一个性能领先的模型,更是赋能整个学术界探索下一代搜索智能体的坚实基座。
OpenSeeker 作为首个由纯学术团队打造、模型与全量训练数据完全开源的深度搜索智能体,从根本上打破了长期以来由大型科技公司构筑的数据壁垒。它为科研社区提供了可直接使用、可复现、可扩展的高质量研究基础。这一开源举措显著降低了前沿搜索智能体研究的门槛,使研究者能够更专注于方法本身的创新,而无需受限于数据获取的困难。
作者介绍
本文共同第一作者为上海交通大学博士生杜钰文与叶锐,其中叶锐为项目负责人。指导老师为上海交通大学人工智能学院陈思衡教授,主要研究方向为 AI 智能体与智能科学等领域。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28077


