基准评测 - 鲸林向海

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距

关键词：大语言模型、工具使用、基准评测、真实场景、智能体当 AI 从实验室走向真实世界，简单的任务竟可能成为难以逾越的鸿沟。假设你正在准备一场关于“2024年热门电影推荐”的演示，于是向 AI 助手发出指令：“帮我查查今年最火的几部电影，然后做个简单的调查问卷 PPT。” 在实验室的理想环境中，AI 或许能完美地执行这一任务：调用电影搜索 API 获取列…

2026年3月18日

519000

大模型评测

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化当多模态大模型进入真实世界，其“失聪”问题开始凸显。例如，在厨房场景中：背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里，却完全由声音传递。此时，即便是当前最先进的模型也开始“失灵”：它们能看懂动作，却听不懂发生了什么；能描述现象，却无法推断背后的原因。核…

2026年3月12日

244000