NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

3月16日,在NVIDIA GTC 2026大会上,NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图,并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时,NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示,AI-Q在两个榜单上均位列第一,得分分别为55.95与54.50。

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

这两个基准究竟是什么?为何NVIDIA选择它们?其设计理念与背后的思想演进是怎样的?

背景:深度研究Agent的爆发与评估困境

自OpenAI发布Deep Research以来,Google、Grok、Perplexity以及国内的千问、豆包、通义等厂商迅速跟进,推出了各自的深度研究Agent。这类应用能够自主规划搜索路径、浏览大量网页、提炼关键信息,将原本耗时数小时的案头调研压缩至几分钟,并输出结构完整、引用详实的研究报告。

然而,随之而来的核心问题是:如何评估这些报告的质量?不同产品间的差异如何量化?

评估深度研究智能体的难度远超代码生成或数学推理。一份优秀的调研报告需同时满足信息全面、分析深入、结构清晰、引用可靠等多重要求,且这些维度间存在微妙的权衡。现有评估方式要么仅测试特定事实的检索能力,忽略了“该检索什么”以及“如何整合成连贯叙述”的决策过程;要么评估完整报告,但标准过于粗放或完全由大语言模型自行定义,缺乏客观锚点。

针对这一问题,中国科学技术大学的研究团队先后推出了DeepResearch Bench与DeepResearch Bench II两代评估基准。所有数据、代码与评估脚本均已开源:

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

DeepResearch Bench (ICLR 2026):
* 论文链接:https://arxiv.org/abs/2506.11763
* GitHub:https://github.com/Ayanami0730/deep_research_bench

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

DeepResearch Bench II:
* 论文链接:https://arxiv.org/abs/2601.08536
* GitHub:https://github.com/imlrz/DeepResearch-Bench-II

DeepResearch Bench:首个系统性评估框架

从真实需求出发

研究团队认为,基准测试应服务于真实用户需求。他们从一个包含约9.6万条用户查询的内部数据集(源自用户与搜索增强型大语言模型的真实交互)出发,经过脱敏、过滤与分类,最终筛选出4.4万条符合“深度研究”定义的查询,并统计出用户在22个主题领域的真实需求分布。

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

基于此分布,团队确定了各领域的任务数量,并邀请相关领域的博士级专家编写调研任务,最终构建了一个包含100个高挑战性研究任务(50个中文,50个英文)的基准数据集。

两个互补的评估框架

该工作设计了两个评估框架,分别回答关于调研报告的两个本质问题:

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

  • RACE:评估报告质量。 核心思想是不同任务的评估侧重点应动态调整。RACE根据任务特点动态生成评估标准与权重,并引入一篇高质量参考报告进行对比评分,以缓解大语言模型评审“倾向一律给高分”的问题。
  • FACT:验证信息可靠性。 从报告中提取每一条事实声明及其引用的URL,抓取对应网页内容后,逐条验证引用是否真正支持该声明。由此量化两个关键指标:智能体引用了多少“有效信息”,以及引用的准确率。

关键发现

在首批评估中,Gemini Deep Research与OpenAI Deep Research展现出领先优势,但各有侧重:前者在全面性和有效信息量上领先,后者在指令跟随能力上更出色。Perplexity Deep Research总体排名稍低,但引用准确率高达90%,远超其他竞品,表明“找到多少”与“找得准不准”是两种不同的能力。

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

团队还使用50个中文任务进行了人类一致性实验,总计投入225人时。最终验证RACE的成对一致率达到71.3%,超过了人类专家之间的互评一致率(68.4%),大幅优于基线方法及RACE自身的任何消融变体。

DeepResearch Bench II:以专家标准丈量AI差距

现有评估范式的根本问题

DeepResearch Bench V1发布后,后续的深度研究评估基准基本沿用了两类思路:
1. 先验的评分点: 由大语言模型预先生成评估标准。但模型认为重要的内容,未必是领域专家真正关心的。
2. 后验的引用审查: 检查引用是否有效、能否支撑结论。但引用格式正确、来源可访问,并不意味着内容本身正确——模型可能检索到错误信息甚至被投毒的数据。

核心判断:评估终将回归与人类专家的对齐

研究团队认为,随着模型自我演化能力增强,评估的核心问题将转变为:模型认为一份调研报告应包含的内容,是否真的与人类专家的预期一致?
要回答这个问题,必须以人类专家作为参照。而开源的、经过同行评审的人类专家调研报告,正是绝佳的锚点。引入专家报告后,第二个问题也随之解决——专家文章中已包含正确的证据与结论,只需检查模型的报告是否涵盖了这些内容即可,无需再依赖对网页引用的逐条验证。

逆向解构:从专家报告到评估标准

V2的做法是逆向的:从专家已完成的报告出发,逆向解构其呈现方式、分析方法、召回的信息及研究问题,据此提取出评估标准与调研任务。

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

具体而言,团队从知名期刊、顶级会议和权威机构出版物中精选了132篇高质量研究文章,通过“大语言模型提取 → 自我评估过滤 → 人工修订 → 领域专家精炼”的四阶段流程,最终获得9,430条细粒度二元评估标准(平均每个任务约71条)。这些标准并非抽象的“是否全面”,而是诸如“是否指出小城市劳动力流失的关键原因在于职业结构错配”这样可直接回答“是或否”的具体要求,评估时无需依赖模型自身的领域知识进行判断。

三层能力解剖

在评估维度上,DeepResearch Bench V2 从信息组织的视角出发,将深度研究任务拆解为三层递进的核心能力:

  • 信息召回:智能体是否知道该寻找哪些信息?找到的信息是否准确?这是整个研究流程的基础。
  • 分析:智能体能否超越简单的信息汇总?许多模型生成的报告仅引用现成结论或给出泛泛之谈,而缺乏从原始信息出发,通过推理与综合得出有价值的高层次见解。
  • 呈现:即使信息准确、结论深刻,若不能以清晰、用户友好的方式组织和传达,同样无法构成一份优秀的研究报告。

NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准

这三层能力对应了深度研究从“搜索”到“思考”再到“写作”的完整链条。

两代工作的思想脉络

回顾该系列研究,其核心追问始终如一:如何让对深度研究智能体的评估更接近人类专家的判断?

  • 第一代的答案是“让评估更智能”——通过动态权重、自适应标准与参考对比,使大语言模型评审能够灵活判断报告质量,其评估结果甚至超越了人类评审员之间的一致性。
  • 第二代的答案则是“让评估有据可依”。与其让AI自行定义何为“好”的研究,不如直接以人类专家的研究成果为标杆,将“好”拆解为数千个可验证的具体要求。这不仅使评估更加客观、透明,也首次实现了对AI与人类专家之间差距的精确定位。

两代工作共同构成了一个从“能否评估”到“评估是否精准”再到“差距何在”的完整叙事。而NVIDIA AI-Q的最新结果表明,这把标尺正被行业头部玩家采纳,用于度量并推动AI深度研究能力的边界。

局限与展望

研究团队也坦诚讨论了当前工作的局限。

即便由人类专家撰写的调研报告,也难以令所有读者满意。这恰恰说明,评估深度研究智能体本身就是一个带有主观性的长尾问题——当前的评估方法只能尽力使其与大多数人的价值判断和信息需求保持一致。同时,由于专家文章本身可能存在瑕疵、大语言模型在信息提取过程中可能产生“幻觉”、人工校验也难免疏漏,所构建的评估量规并非完美无缺。为此,团队在项目主页设立了公开评论区,欢迎社区指正与讨论。

展望未来,该系列的评估揭示了一些根本性挑战:

  • 分析的深度与原创性:从信息汇总到产生真正洞察之间,仍存在一道鸿沟。即便是分析维度得分突破50%的NVIDIA AI-Q,在此方面仍有巨大提升空间。
  • 用户适应性:针对同一研究主题,面向本科生和资深教授的报告应截然不同,但当前系统几乎无法实现这种自适应的内容呈现。

DeepResearch Bench系列的所有数据、代码与评估脚本均已开源。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28057

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?

    当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…

    2025年11月12日
    25300
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    21500
  • 腾讯混元HY 2.0 Think实测:MoE架构406B参数,准确率跃升4.6%至71.9%,响应时间缩短153%

    腾讯混元最新版语言模型 Tencent HY 2.0 正式发布。HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口。我们对新版本 hunyuan-2.0-thinking-20251109 与上一版本 hunyuan-t1-20250711 进行了全面对比评测,测试其在准确率、响应时间、token 消耗和…

    2025年12月6日
    31800
  • 小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

    小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现:* 测试题数:约1.5万…

    2025年12月21日
    69600
  • 豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测

    豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测 罗永浩的年度科技创新分享大会,刷屏全网。 复盘整场四个多小时的直播,观众集体回味讨论的焦点似乎就两个: 第一,不知是因为迟到了40多分钟,还是提前就有谋划,罗永浩现场宣布给所有购票观众退票。 第二,罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点,火爆出圈。 光看二位的辩题,就已火药味…

    2026年1月1日
    35800