3月16日,在NVIDIA GTC 2026大会上,NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图,并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时,NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示,AI-Q在两个榜单上均位列第一,得分分别为55.95与54.50。

这两个基准究竟是什么?为何NVIDIA选择它们?其设计理念与背后的思想演进是怎样的?
背景:深度研究Agent的爆发与评估困境
自OpenAI发布Deep Research以来,Google、Grok、Perplexity以及国内的千问、豆包、通义等厂商迅速跟进,推出了各自的深度研究Agent。这类应用能够自主规划搜索路径、浏览大量网页、提炼关键信息,将原本耗时数小时的案头调研压缩至几分钟,并输出结构完整、引用详实的研究报告。
然而,随之而来的核心问题是:如何评估这些报告的质量?不同产品间的差异如何量化?
评估深度研究智能体的难度远超代码生成或数学推理。一份优秀的调研报告需同时满足信息全面、分析深入、结构清晰、引用可靠等多重要求,且这些维度间存在微妙的权衡。现有评估方式要么仅测试特定事实的检索能力,忽略了“该检索什么”以及“如何整合成连贯叙述”的决策过程;要么评估完整报告,但标准过于粗放或完全由大语言模型自行定义,缺乏客观锚点。
针对这一问题,中国科学技术大学的研究团队先后推出了DeepResearch Bench与DeepResearch Bench II两代评估基准。所有数据、代码与评估脚本均已开源:

DeepResearch Bench (ICLR 2026):
* 论文链接:https://arxiv.org/abs/2506.11763
* GitHub:https://github.com/Ayanami0730/deep_research_bench

DeepResearch Bench II:
* 论文链接:https://arxiv.org/abs/2601.08536
* GitHub:https://github.com/imlrz/DeepResearch-Bench-II
DeepResearch Bench:首个系统性评估框架
从真实需求出发
研究团队认为,基准测试应服务于真实用户需求。他们从一个包含约9.6万条用户查询的内部数据集(源自用户与搜索增强型大语言模型的真实交互)出发,经过脱敏、过滤与分类,最终筛选出4.4万条符合“深度研究”定义的查询,并统计出用户在22个主题领域的真实需求分布。

基于此分布,团队确定了各领域的任务数量,并邀请相关领域的博士级专家编写调研任务,最终构建了一个包含100个高挑战性研究任务(50个中文,50个英文)的基准数据集。
两个互补的评估框架
该工作设计了两个评估框架,分别回答关于调研报告的两个本质问题:

- RACE:评估报告质量。 核心思想是不同任务的评估侧重点应动态调整。RACE根据任务特点动态生成评估标准与权重,并引入一篇高质量参考报告进行对比评分,以缓解大语言模型评审“倾向一律给高分”的问题。
- FACT:验证信息可靠性。 从报告中提取每一条事实声明及其引用的URL,抓取对应网页内容后,逐条验证引用是否真正支持该声明。由此量化两个关键指标:智能体引用了多少“有效信息”,以及引用的准确率。
关键发现
在首批评估中,Gemini Deep Research与OpenAI Deep Research展现出领先优势,但各有侧重:前者在全面性和有效信息量上领先,后者在指令跟随能力上更出色。Perplexity Deep Research总体排名稍低,但引用准确率高达90%,远超其他竞品,表明“找到多少”与“找得准不准”是两种不同的能力。

团队还使用50个中文任务进行了人类一致性实验,总计投入225人时。最终验证RACE的成对一致率达到71.3%,超过了人类专家之间的互评一致率(68.4%),大幅优于基线方法及RACE自身的任何消融变体。
DeepResearch Bench II:以专家标准丈量AI差距
现有评估范式的根本问题
DeepResearch Bench V1发布后,后续的深度研究评估基准基本沿用了两类思路:
1. 先验的评分点: 由大语言模型预先生成评估标准。但模型认为重要的内容,未必是领域专家真正关心的。
2. 后验的引用审查: 检查引用是否有效、能否支撑结论。但引用格式正确、来源可访问,并不意味着内容本身正确——模型可能检索到错误信息甚至被投毒的数据。
核心判断:评估终将回归与人类专家的对齐
研究团队认为,随着模型自我演化能力增强,评估的核心问题将转变为:模型认为一份调研报告应包含的内容,是否真的与人类专家的预期一致?
要回答这个问题,必须以人类专家作为参照。而开源的、经过同行评审的人类专家调研报告,正是绝佳的锚点。引入专家报告后,第二个问题也随之解决——专家文章中已包含正确的证据与结论,只需检查模型的报告是否涵盖了这些内容即可,无需再依赖对网页引用的逐条验证。
逆向解构:从专家报告到评估标准
V2的做法是逆向的:从专家已完成的报告出发,逆向解构其呈现方式、分析方法、召回的信息及研究问题,据此提取出评估标准与调研任务。

具体而言,团队从知名期刊、顶级会议和权威机构出版物中精选了132篇高质量研究文章,通过“大语言模型提取 → 自我评估过滤 → 人工修订 → 领域专家精炼”的四阶段流程,最终获得9,430条细粒度二元评估标准(平均每个任务约71条)。这些标准并非抽象的“是否全面”,而是诸如“是否指出小城市劳动力流失的关键原因在于职业结构错配”这样可直接回答“是或否”的具体要求,评估时无需依赖模型自身的领域知识进行判断。
三层能力解剖
在评估维度上,DeepResearch Bench V2 从信息组织的视角出发,将深度研究任务拆解为三层递进的核心能力:
- 信息召回:智能体是否知道该寻找哪些信息?找到的信息是否准确?这是整个研究流程的基础。
- 分析:智能体能否超越简单的信息汇总?许多模型生成的报告仅引用现成结论或给出泛泛之谈,而缺乏从原始信息出发,通过推理与综合得出有价值的高层次见解。
- 呈现:即使信息准确、结论深刻,若不能以清晰、用户友好的方式组织和传达,同样无法构成一份优秀的研究报告。

这三层能力对应了深度研究从“搜索”到“思考”再到“写作”的完整链条。
两代工作的思想脉络
回顾该系列研究,其核心追问始终如一:如何让对深度研究智能体的评估更接近人类专家的判断?
- 第一代的答案是“让评估更智能”——通过动态权重、自适应标准与参考对比,使大语言模型评审能够灵活判断报告质量,其评估结果甚至超越了人类评审员之间的一致性。
- 第二代的答案则是“让评估有据可依”。与其让AI自行定义何为“好”的研究,不如直接以人类专家的研究成果为标杆,将“好”拆解为数千个可验证的具体要求。这不仅使评估更加客观、透明,也首次实现了对AI与人类专家之间差距的精确定位。
两代工作共同构成了一个从“能否评估”到“评估是否精准”再到“差距何在”的完整叙事。而NVIDIA AI-Q的最新结果表明,这把标尺正被行业头部玩家采纳,用于度量并推动AI深度研究能力的边界。
局限与展望
研究团队也坦诚讨论了当前工作的局限。
即便由人类专家撰写的调研报告,也难以令所有读者满意。这恰恰说明,评估深度研究智能体本身就是一个带有主观性的长尾问题——当前的评估方法只能尽力使其与大多数人的价值判断和信息需求保持一致。同时,由于专家文章本身可能存在瑕疵、大语言模型在信息提取过程中可能产生“幻觉”、人工校验也难免疏漏,所构建的评估量规并非完美无缺。为此,团队在项目主页设立了公开评论区,欢迎社区指正与讨论。
展望未来,该系列的评估揭示了一些根本性挑战:
- 分析的深度与原创性:从信息汇总到产生真正洞察之间,仍存在一道鸿沟。即便是分析维度得分突破50%的NVIDIA AI-Q,在此方面仍有巨大提升空间。
- 用户适应性:针对同一研究主题,面向本科生和资深教授的报告应截然不同,但当前系统几乎无法实现这种自适应的内容呈现。
DeepResearch Bench系列的所有数据、代码与评估脚本均已开源。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28057


