大模型评估

NVIDIA AI-Q登顶深度研究双榜！DeepResearch Bench揭秘AI Agent评估新标准

3月16日，在NVIDIA GTC 2026大会上，NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图，并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时，NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示，AI-Q在两个榜单上均位列第一，得分分…

2026年4月1日

612000

AI产业动态

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

近期，Scale AI与Center for AI Safety联合发布的研究报告《远程劳动指数（RLI）：评估AI在真实工作环境中的端到端性能》引发广泛关注。该研究通过构建包含240个真实远程工作项目的RLI基准，对全球六大顶尖AI模型进行了系统性评估，结果显示当前AI在处理具有经济价值的复杂任务时，自动化率最高仅为2.5%，整体平均不足3%。这一发现不仅…

2025年11月6日

372000