EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化

当多模态大模型进入真实世界,其“失聪”问题开始凸显。

例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。

核心问题并非模型不会“看”,而是它们尚未真正学会“听”。

声音在认知中的关键作用

在人类的日常感知中,声音从来不是配角:
* 它提供空间线索(声源在左/右、远/近、是否移动)。
* 它揭示画面外事件(镜头外的对话、敲门、物品摔落、警报响起)。
* 它承载因果与意图(某个动作触发了特定声音;某个声音提示了后续行为)。

然而,长期以来,第一人称视频理解基准高度“视觉中心化”:音频虽存在,却缺乏系统性评测;听觉虽重要,却很少被认真考察。这使得第一视角的世界长期处于“半静音”状态。

现在,这一空白终于被填补。

EgoSound:让模型真正学会“听”

来自复旦大学、上海创智学院、INSAIT、华东师范大学及南开大学的研究团队,提出了首个系统性评测第一人称声音理解能力的基准:

EgoSound: Benchmarking Sound Understanding in Egocentric Videos

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

这是首个专门面向多模态大语言模型的第一视角“声音理解”评测体系。其目标明确:让模型在真实世界中,能听见、理解、推理并解释发生的一切。 不仅“看见世界”,更要“听懂世界”。

从“看见发生了什么”到“听懂隐藏线索”

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

以往的第一人称视频问答,更像一个“静音观察者”。它擅长回答“画面里有什么?”或“人在做什么?”,却难以处理“谁在说话?”、“为什么这么说?”、“这个声音意味着什么?”以及“声音与动作如何形成因果链?”等问题。

EgoSound关注的焦点并非“视频里有什么”,而是:当声音成为关键证据时,模型是否还能正确作答?

一个基准,四大核心贡献

1. 首个第一人称声音理解基准

EgoSound融合了两类互补数据:
* Ego4D:覆盖大量日常第一人称活动。
* EgoBlind:聚焦更依赖听觉进行理解、交互与导航的场景。
这使得评测既包含“视觉主导”的常见第一视角,也涵盖“声音主导”的现实难题。

2. 七大任务体系:从感知到推理

EgoSound系统性地拆解了第一人称声音能力的边界,覆盖7类任务:
* Sound Characteristics(声音特征)
* Counting(计数)
* Temporal Attribute(时序属性)
* Spatial Location(空间定位)
* Sound Source Identification(声源识别)
* Inferential Causality(因果推理)
* Cross-Modal Reasoning(跨模态推理)
覆盖了从“听到”到“理解”再到“推断”的完整认知链路。

3. 高质量大规模开放式问答数据集

最终构建的数据集规模为:900段严格筛选的视频,以及7315条经过验证的开放式问答。强调“开放式”意味着它更接近真实世界的问答交互,模型无法仅凭选项“蒙对”答案,从而更贴近实际应用场景。

4. 全面的模型评测与基线建立

研究团队评测了多款前沿的多模态大语言模型,并进行了系统性分析,为未来的方法研究提供了清晰的改进方向。

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

为“听觉推理”量身打造的数据构建流程

为确保问题真正依赖声音线索,研究团队采用了多阶段筛选机制:
1. 定位关键的人-物交互片段。
2. 生成交互片段的“音频中心”描述。
3. 构建并筛选高质量的开放式问答。
整个过程借助多个强模型辅助标注,最终保证:每条问题都绕不开“听觉线索”。

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

实验结果:模型仍然“听不懂世界”

评测结果直观地揭示了差距:当前最强模型与人类表现的平均准确率差距超过27个百分点,表明现有模型尚无法稳定地将声音转化为可靠的认知。

  • 人类平均准确率:83.9%
  • 当前最佳模型准确率:56.7%(Qwen3-Omni-Thinking-30B)

EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%

三个关键发现

(1)空间/时序/因果推理任务最难

模型往往能描述可见内容,却难以稳定回答“声音来自哪里?”、“什么时候发生的?”以及“为什么会这样?”等涉及空间、时序和因果关系的复杂问题。

(2)跨模态对齐仍是瓶颈

声音线索经常位于画面之外,模型需要建立“听到—看到—推断”的连贯链条,这对当前的跨模态对齐能力提出了严峻挑战。

(3)第一人称的真实复杂度被低估

人与物的交互、视觉遮挡、镜头抖动、声源与镜头距离的动态变化等因素,使得声音推理更贴近真实世界,但也显著增加了任务难度。

结语:真实世界从不静音

如果说过去的多模态模型更像一个擅长“看图说话”的解说员,那么EgoSound希望推动其向真正的第一人称智能体演进:既能看,也能听;不仅能描述,更能定位、解释与推断。

毕竟,真实世界从不静音。

论文与资源
* 论文标题:EgoSound: Benchmarking Sound Understanding in Egocentric Videos
* 论文链接:https://www.arxiv.org/abs/2602.14122
* GitHub:https://github.com/groolegend/EgoSound/
* Huggingface数据集:https://huggingface.co/datasets/grooLegend/EgoSound
* 项目主页:https://groolegend.github.io/EgoSound/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25313

(0)
上一篇 2026年3月11日 下午3:02
下一篇 2026年3月12日 上午10:47

相关推荐

  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    46800
  • AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

    今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。 作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。 这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…

    2026年3月27日
    68300
  • SuperCLUE-OpenClaw:首个中文AI Agent评估基准发布,国产模型表现亮眼

    背景介绍 一、OpenClaw介绍 OpenClaw(前身为 ClawdBot/Moltbot)是一个开源的AI Agent框架,由Peter Steinberger创建。作为目前GitHub上最受欢迎的AI Agent项目之一,它拥有超过32.5万颗星标。用户常将其昵称为“龙虾”,因为它像一个常驻电脑的数字助理,能够接收指令、调用工具、读写文件、执行脚本,…

    2026年3月26日
    65800
  • PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平

    一个评估大模型在“养虾”(OpenClaw)任务中表现的基准——PinchBench,现已正式发布。 该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度,综合评估各大模型在OpenClaw实际业务场景中的表现。 需要指出的是,本次评测尚未包含近期发布的新模型,例如谷歌主打性价比…

    2026年3月9日
    98000
  • GPT-5.2非思考模式实战评测:20+场景深度解析日常AI战斗力

    OpenAI 最近上线了 GPT-5.2 版本,并默认启用了非思考模式。那么,在不开启深度思考功能的情况下,它的日常表现究竟如何?毕竟大多数用户使用 AI 都是随手提问、快速生成,并不会每次都等待它进行长时间的“深度思考”。 为此,我准备了 20 多个实战场景,覆盖职场沟通、UI 生成、工具开发、创意写作等多个维度,专门测试 GPT-5.2 的“日常战斗力”…

    2025年12月14日
    29600