大模型评估
-
NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准
3月16日,在NVIDIA GTC 2026大会上,NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图,并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时,NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示,AI-Q在两个榜单上均位列第一,得分分…
-
AI自动化率仅3%:Scale AI研究揭示大模型在真实工作场景中的局限性
近期,Scale AI与Center for AI Safety联合发布的研究报告《远程劳动指数(RLI):评估AI在真实工作环境中的端到端性能》引发广泛关注。该研究通过构建包含240个真实远程工作项目的RLI基准,对全球六大顶尖AI模型进行了系统性评估,结果显示当前AI在处理具有经济价值的复杂任务时,自动化率最高仅为2.5%,整体平均不足3%。这一发现不仅…
