近日,多模态视频理解领域迎来重要更新。由复旦大学、上海财经大学及南洋理工大学联合构建的 MeViSv2 数据集正式发布,相关论文已被顶级期刊 IEEE TPAMI 录用。

- 论文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation,TPAMI 2025
- arXiv 链接:https://arxiv.org/abs/2512.10945
- 数据集官网:https://henghuiding.com/MeViS/
- 数据集下载:https://henghuiding.com/MeViS/#dataset
- 评测平台:https://www.codabench.org/competitions/11420/
- 单位:复旦大学、上海财经大学、南洋理工大学
作为该领域极具代表性的数据集之一,MeViSv2 旨在通过复杂的动作推理挑战现有模型的多模态处理能力。该数据集包含 2,006 个视频、8,171 个目标对象及 33,072 条文本/音频表达,并通过新增总计超过 15 万秒的音频数据,实现了向原生多模态数据集的演进。
MeViSv2 全面支持指向性视频目标分割(RVOS)、指向性多目标追踪(RMOT)、音频引导视频目标分割(AVOS)以及运动指向性语句生成(RMEG)四大核心任务。同时,它引入了“无目标语句”和“运动推理”等新机制,旨在检验模型的逻辑推理能力与鲁棒性极限。目前,该数据集、相关代码及评测平台均已开放。

图 1:MeViS 示例。MeViS 中的表达主要侧重于运动属性,使得仅凭单帧图像无法识别目标对象。最新的 MeViSv2 进一步提供了运动推理和无目标表达式,并为每一条文本提供了对应的音频记录。
MeViSv1:从“静态特征识别”到“动态运动理解”
指向性视频目标分割(RVOS)是多模态视频理解的重要方向,近年来备受关注。凭借自然语言交互的灵活性,RVOS 在具身智能、视频编辑和辅助驾驶等领域展现出广阔的应用前景。然而,在 Refer-YouTube-VOS 和 DAVIS 等早期 RVOS 数据集中,研究人员发现了一个“隐性缺陷”:目标物体往往具有显而易见的静态属性(如“红衣服”、“左边”)。模型仅需观察单帧图像,依赖这些静态线索即可锁定目标,完全忽略了视频作为时间序列的动态本质。
为突破这一局限,MeViS 应运而生。其初版 MeViSv1 确立了探索像素级视频理解的三大核心理念:
- 运动优先:标注要求语言表达必须侧重于描述对象的运动线索(如“奔跑”、“飞翔”),而非静态特征,迫使模型关注视频的时间动态信息。
- 复杂场景:视频素材选自包含多个对象的复杂场景,避免简单背景下的单一目标,极大提高了辨识难度。
- 长时序关联:MeViS 视频平均时长 13.16 秒,目标物体平均持续 10.88 秒,远超同类数据集(通常约 5 秒)。这对模型理解长时序动作及处理相似物体间的长期混淆提出了极高要求。
基于此理念,MeViSv1 提供了超过 28,000 条高质量语句标注,覆盖 2,006 个视频中的 8,171 个物体。如图 1 的第一个样例所示,三只鹦鹉外观极度相似,静态特征失效,只有理解“The bird flying away”这一动态描述,模型才能准确定位目标。MeViSv1 在 CodaLab 评测平台上已吸引全球近千支队伍参与,累计提交超过 1 万次,并成功在 CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025 等顶级会议上举办全球挑战赛,吸引了数百支来自国内外顶尖机构的队伍参赛,为 MeViSv2 的全面进化奠定了坚实基础。
MeViSv2:迈向更通用的原生多模态视频理解
MeViSv2 在 MeViSv1 的基础上进行了显著扩展与增强,尤其是在多模态数据方面,旨在提供一个更具挑战性、更贴近真实世界、覆盖多模态全场景的视频理解研究平台。MeViSv2 延续了前代数据集的挑战性设计,其核心亮点主要体现在以下三个方面:
1. 模态增加:音频支持
MeViSv2 的一大亮点是首次为全部 33,072 条文本语句配对了对应的语音指令。这些音频数据总时长超过 150,000 秒,源于数十位不同年龄、性别和背景的真人录制以及先进的 TTS 模型合成,保证了语音数据的多样性、自然性和真实感。这一扩展标志着 MeViS 从视频数据集进化为原生多模态数据集。
相比于文本,音频在日常人机交互中更为自然和普遍,且能承载语调、情感和重音等文本无法传达的细微语义信息,有助于更精确的目标识别与分割。MeViSv2 新增的音频模态不仅支持音频引导视频对象分割(AVOS),还支持结合文本与音频优势的、更自然直观的多模态视频理解任务。
2. 任务更广:四大核心任务
除了音频与分割掩码,MeViSv2 还系统性地补充了精确的物体轨迹标注,使其成为目前规模最大的指向性多目标追踪(RMOT)数据集。凭借超过 33,000 条语句和 2,000 个视频的庞大体量,MeViSv2 为 RMOT 研究提供了远超现有基准的训练数据。
在多模态数据的全面支持下,MeViSv2 打破了任务壁垒,仅凭单一数据集即可支持多模态视频理解领域的四大核心任务:
- 指向性视频目标分割(RVOS)
- 音频引导视频目标分割(AVOS)
- 指向性多目标追踪(RMOT)
- 运动指向性语句生成(RMEG)
这些任务覆盖了图像、音频、分割掩码、边界框以及生成式理解等关键维度,确立了 MeViSv2 作为视频理解领域首个全能型数据集的地位。
3. 规模增大:更具挑战性的语句类型与数量

表 1:MeViSv2、MeViSv1 与其他多模态视频分割数据集对比。
MeViSv2 将总表达式数量扩充至 33,072 条,相较于 MeViSv1 新增了 4,502 条极具挑战性的语句。这一扩展精准覆盖了当前 AI 推理能力的两大核心挑战瓶颈:
- 运动推理语句:这类语句不再直白描述动作,而是要求模型进行复杂的逻辑推理。例如,面对 “What is causing the cage to shake?” 的提问,模型不能只寻找“晃动的笼子”,而必须推断出是笼内正在扑腾的鸟引发了震动。又如,对于 “The one whose life is being threatened” 这一描述,模型需要理解狮子捕猎斑马的动态关系,才能准确定位被追逐的斑马,而非捕食者。
- 无目标语句:为解决模型在目标不存在时仍强行输出的“幻觉”问题,MeViSv2引入了具有欺骗性的无目标表达。如图2(c)所示,语句“Moving coins from right pile to left pile”描述了一个看似具体的动作,但视频中鹦鹉的实际动作是从左向右移动硬币。图2(b)中的语句“The dog whose life is being threatened”询问关于狗的信息,而视频中激烈追逐的主角是斑马。面对这些误导性描述,MeViSv2要求模型具备“判伪”能力,当视频中无匹配对象时,应坚定输出“无目标”,从而增强现实应用的鲁棒性。

图2:MeViSv2中新增的运动推理语句和无目标语句示例。橙色标记的物体为运动推理语句的目标,无目标语句则是具有欺骗性但不指代任何对象的语句。
LMPM++:大语言模型驱动的时序推理模型
面对MeViSv2带来的长时序依赖与复杂逻辑挑战,传统基于“关键帧采样”或“静态特征匹配”的方法已显不足。为此,研究团队提出了全新的基线方法:语言引导的运动感知与匹配模型(LMPM++)。如图3所示,LMPM++巧妙地将大语言模型的推理能力引入视频理解,通过四大技术创新,有效应对“看不全”、“理不清”和“乱指认”的难题:

图3:LMPM++模型架构。该模型采用以“对象”为中心的大语言模型作为基础,实现了灵活的多模态推理与复杂目标指代。
- 核心架构:以“对象”为中心的LLM推理
为处理长达200帧的视频序列,LMPM++摒弃了计算昂贵的逐帧特征输入方式。它首先生成语言引导的查询,检测视频中的潜在对象并将其转化为轻量级的目标嵌入。这些嵌入随后被输入到大语言模型中。借助LLM强大的上下文建模能力,LMPM++能够跨越整个视频时序,捕捉稍纵即逝的动作或长周期的行为模式。 - 原生多模态:统一文本与音频接口
为适配MeViSv2的多模态特性,LMPM++设计了统一的指令格式。通过引入<Text>和<Audio>标签及对应的投影层,模型将文本和音频特征映射到同一语义空间。这意味着,无论是输入“一只飞走的鸟”的文本,还是对应的语音指令,LLM都能以相同方式理解并执行,实现了模态无关的统一感知。 - 创新损失:时间级对比学习
动作的顺序往往决定语义。LMPM++引入了时间级对比损失:通过随机打乱目标嵌入的时间顺序作为负样本,强制模型学习正确的时间结构。这一设计增强了模型对复杂动作序列的辨识能力,避免了因时序混乱导致的误判。 - 自适应输出:解决“无目标”幻觉
针对MeViSv2中的“无目标语句”陷阱,LMPM++摒弃了传统RVOS方法强制输出Top-1结果的策略。模型被训练以预测目标数量N₀,并动态生成对应数量的<SEG>Token。当N₀=0时,模型不输出任何掩码。这种自适应输出策略使LMPM++在面对欺骗性指令时能够“保持沉默”,从而大幅提升了无目标准确率指标。
实验
- RVOS任务

表2:RVOS方法在MeViSv2上的性能对比。
如表2所示,无目标准确率和目标准确率是为MeViSv2新增“无目标语句”而设计的指标。N-acc.衡量模型识别“无目标”样本的能力,T-acc.则反映模型在识别负样本的同时,是否误伤真实目标。
结果显示,对于像ReferFormer这样仅输出Top-1对象掩码的方法,多目标和无目标样本构成了巨大挑战。这种局限性源于其假设视频中必然存在单一目标,这是以往RVOS数据集的默认假设。因此,这类方法本质上无法处理无目标样本,导致N-acc.得分极低。这些结果凸显了MeViSv2数据集在评估模型泛化能力方面提出的重大挑战。
相比之下,LMPM++展现出压倒性优势。凭借大语言模型的逻辑推理能力与自适应输出策略,LMPM++不仅在综合指标J&F上达到43.9%的新高,刷新了SOTA记录,更有效抑制了“幻觉”,其N-acc.跃升至45.7%。同时,高达87.4%的T-acc.也证明模型并非通过简单“保守策略”换取高分,而是在保障真实目标识别率的前提下,具备了开放世界所需的逻辑判别能力。
- RMOT任务

表3:RMOT方法在MeViSv2上的性能对比。
如表3所示,在指向性多目标追踪任务中,LMPM++确立了绝对领先地位。在不使用额外检测头的基础上,LMPM++斩获了38.1%的HOTA和28.1%的DetA,相比前代SOTA方法TempRMOT性能提升显著。尤为关键的是,LMPM++的T-acc.达到了87.4%,远超之前的方法,有力证明了其在处理复杂多目标追踪时的精准度。
- AVOS任务

表4:AVOS方法在MeViSv2上的性能对比。
表4展示了音频引导视频目标分割方法在MeViSv2上的基准测试结果。原生支持音频输入的模型WNet和MUTR仅分别取得16.5%和33.6%的得分,突显了数据集的难度。MUTR的N-acc.为0%而T-acc.为100%,表明无目标样本显著增加了挑战性。LMPM++在所有指标上都远超之前的模型,体现了其优越的多模态处理能力。
- RMEG任务

表5:RMEG方法在MeViSv2上的性能对比。
如表 5 所示,在运动指向性语句生成 (RMEG) 这一极具挑战性的生成任务中,现有模型普遍面临“表达难”的困境。即便是表现最好的 VideoLLaMA 2,其 METEOR 和 CIDEr 得分也仅为 15.68 和 27.10。这表明,虽然引入大语言模型 (LLM) 相比传统方法 (如 GIT, VAST) 显著提升了逻辑推理能力,但在生成“无歧义”的精准描述方面仍有巨大提升空间。现有模型往往难以捕捉对象动作的细微差别,常犯“指代不清”或“千篇一律”的错误,无法像人类一样精准区分外观相似但动作不同的目标,这为未来多模态大模型的研究指明了“从泛化描述向精准指代进化”的新方向。
MeViSv2 上的基准测试结果揭示了现有 SOTA 模型在面对运动推理和无目标表达式时的性能瓶颈。即使是表现最好的方法,在这些新增的挑战性样本上,性能也出现了显著下降。这表明 MeViSv2 成功地捕捉了当前算法的不足,为下一阶段的研究指明了方向。我们期待 MeViSv2 能够激励研究界在以下方面取得突破:
- 多模态深度融合:开发能够直接从原始语音信号中提取时间语义线索,并将其与视频运动信息深度融合的新架构。
- 高级因果推理:提升模型从长时序视频和复杂语言指令中进行因果和逻辑推理的能力,而非仅仅进行模式匹配。
- 鲁棒性和泛化性:增强模型在无目标、多目标、目标相似等复杂场景下的鲁棒性,使其更接近真实世界的应用需求。
MeViSv2 的发布,不仅是一个数据集的更新,更是对整个多模态视频理解领域的一次挑战升级,为未来的相关研究奠定了坚实的基础。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15316
