基准评测
-
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化 当多模态大模型进入真实世界,其“失聪”问题开始凸显。 例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。 核…