EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化

当多模态大模型进入真实世界，其“失聪”问题开始凸显。

例如，在厨房场景中：背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里，却完全由声音传递。此时，即便是当前最先进的模型也开始“失灵”：它们能看懂动作，却听不懂发生了什么；能描述现象，却无法推断背后的原因。

核心问题并非模型不会“看”，而是它们尚未真正学会“听”。

声音在认知中的关键作用

在人类的日常感知中，声音从来不是配角：
* 它提供空间线索（声源在左/右、远/近、是否移动）。
* 它揭示画面外事件（镜头外的对话、敲门、物品摔落、警报响起）。
* 它承载因果与意图（某个动作触发了特定声音；某个声音提示了后续行为）。

然而，长期以来，第一人称视频理解基准高度“视觉中心化”：音频虽存在，却缺乏系统性评测；听觉虽重要，却很少被认真考察。这使得第一视角的世界长期处于“半静音”状态。

现在，这一空白终于被填补。

EgoSound：让模型真正学会“听”

来自复旦大学、上海创智学院、INSAIT、华东师范大学及南开大学的研究团队，提出了首个系统性评测第一人称声音理解能力的基准：

EgoSound: Benchmarking Sound Understanding in Egocentric Videos

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

这是首个专门面向多模态大语言模型的第一视角“声音理解”评测体系。其目标明确：让模型在真实世界中，能听见、理解、推理并解释发生的一切。 不仅“看见世界”，更要“听懂世界”。

从“看见发生了什么”到“听懂隐藏线索”

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

以往的第一人称视频问答，更像一个“静音观察者”。它擅长回答“画面里有什么？”或“人在做什么？”，却难以处理“谁在说话？”、“为什么这么说？”、“这个声音意味着什么？”以及“声音与动作如何形成因果链？”等问题。

EgoSound关注的焦点并非“视频里有什么”，而是：当声音成为关键证据时，模型是否还能正确作答？

一个基准，四大核心贡献

1. 首个第一人称声音理解基准

EgoSound融合了两类互补数据：
* Ego4D：覆盖大量日常第一人称活动。
* EgoBlind：聚焦更依赖听觉进行理解、交互与导航的场景。
这使得评测既包含“视觉主导”的常见第一视角，也涵盖“声音主导”的现实难题。

2. 七大任务体系：从感知到推理

EgoSound系统性地拆解了第一人称声音能力的边界，覆盖7类任务：
* Sound Characteristics（声音特征）
* Counting（计数）
* Temporal Attribute（时序属性）
* Spatial Location（空间定位）
* Sound Source Identification（声源识别）
* Inferential Causality（因果推理）
* Cross-Modal Reasoning（跨模态推理）
覆盖了从“听到”到“理解”再到“推断”的完整认知链路。

3. 高质量大规模开放式问答数据集

最终构建的数据集规模为：900段严格筛选的视频，以及7315条经过验证的开放式问答。强调“开放式”意味着它更接近真实世界的问答交互，模型无法仅凭选项“蒙对”答案，从而更贴近实际应用场景。

4. 全面的模型评测与基线建立

研究团队评测了多款前沿的多模态大语言模型，并进行了系统性分析，为未来的方法研究提供了清晰的改进方向。

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

为“听觉推理”量身打造的数据构建流程

为确保问题真正依赖声音线索，研究团队采用了多阶段筛选机制：
1. 定位关键的人-物交互片段。
2. 生成交互片段的“音频中心”描述。
3. 构建并筛选高质量的开放式问答。
整个过程借助多个强模型辅助标注，最终保证：每条问题都绕不开“听觉线索”。

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

实验结果：模型仍然“听不懂世界”

评测结果直观地揭示了差距：当前最强模型与人类表现的平均准确率差距超过27个百分点，表明现有模型尚无法稳定地将声音转化为可靠的认知。

人类平均准确率：83.9%
当前最佳模型准确率：56.7%（Qwen3-Omni-Thinking-30B）

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

三个关键发现

（1）空间/时序/因果推理任务最难

模型往往能描述可见内容，却难以稳定回答“声音来自哪里？”、“什么时候发生的？”以及“为什么会这样？”等涉及空间、时序和因果关系的复杂问题。

（2）跨模态对齐仍是瓶颈

声音线索经常位于画面之外，模型需要建立“听到—看到—推断”的连贯链条，这对当前的跨模态对齐能力提出了严峻挑战。

（3）第一人称的真实复杂度被低估

人与物的交互、视觉遮挡、镜头抖动、声源与镜头距离的动态变化等因素，使得声音推理更贴近真实世界，但也显著增加了任务难度。

结语：真实世界从不静音

如果说过去的多模态模型更像一个擅长“看图说话”的解说员，那么EgoSound希望推动其向真正的第一人称智能体演进：既能看，也能听；不仅能描述，更能定位、解释与推断。

毕竟，真实世界从不静音。

论文与资源
* 论文标题：EgoSound: Benchmarking Sound Understanding in Egocentric Videos
* 论文链接：https://www.arxiv.org/abs/2602.14122
* GitHub：https://github.com/groolegend/EgoSound/
* Huggingface数据集：https://huggingface.co/datasets/grooLegend/EgoSound
* 项目主页：https://groolegend.github.io/EgoSound/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25313

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化

声音在认知中的关键作用

EgoSound：让模型真正学会“听”

从“看见发生了什么”到“听懂隐藏线索”

一个基准，四大核心贡献

1. 首个第一人称声音理解基准

2. 七大任务体系：从感知到推理

3. 高质量大规模开放式问答数据集

4. 全面的模型评测与基线建立

为“听觉推理”量身打造的数据构建流程

实验结果：模型仍然“听不懂世界”

三个关键发现

（1）空间/时序/因果推理任务最难

（2）跨模态对齐仍是瓶颈

（3）第一人称的真实复杂度被低估

结语：真实世界从不静音

相关推荐

2025年大模型评测工具终极指南：五大工具深度解析与选型策略

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

SuperCLUE-OpenClaw：首个中文AI Agent评估基准发布，国产模型表现亮眼

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

GPT-5.2非思考模式实战评测：20+场景深度解析日常AI战斗力