基准评测
-
AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距
关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…
-
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化 当多模态大模型进入真实世界,其“失聪”问题开始凸显。 例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。 核…
