VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

视频理解领域,信息复杂度远超静态图像,传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型,导致细节丢失与语义纠缠问题。为此,北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架,通过将前景显著的时空动态编码为Object Tokens,并与Context Tokens并行输入大语言模型,构建出高效、可解释且具备指代能力的视频理解新架构。该成果已被ICCV 2025以554高分接收,标志着视频语义解析迈入对象中心化新阶段。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

VideoOrion的核心创新在于将对象及其跨帧演化作为一级语义单元,显式提炼为离散的Object Tokens。这种方法不仅压缩了数据量,更使LLM能够沿对象维度整合细节,显著提升细粒度问答能力,并为需要“锁定实例”的指代任务提供天然接口。例如,在描述“红色三轮滑板车拖拽组件”或“黑色泳装者完成跳板后空翻”等场景时,模型能精准捕捉对象级动作要素,而非仅提供笼统的场景描述。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

技术实现上,VideoOrion采用双分支并行编码架构:Context Tokens分支使用CLIP(VideoOrion)或SigLIP(VideoOrion+)编码采样帧,经STC Connector投影为上下文Token,承载背景与场景等泛化信息;Object Tokens分支则通过检测-分割-跟踪三步流水线,首先用GroundingDINO在关键帧生成对象候选框,再通过SAM细化为精确对象掩码,最后利用XMem跨帧跟踪掩码序列,对池化特征投影形成紧凑的Object Tokens。两类Token共同输入LLM进行融合推理,实现对象与场景的协同理解。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

为应对视频中前景对象进出画面、场景突变等挑战,研究团队提出自适应切片机制,根据前景物体变化动态调整检测与关联策略,避免均匀分段导致的跨段错配。在对象流水线组件的替换实验中,无论使用RAM++、Mask2Former作为提案器,或调整分段策略,或以SAM2替代XMem跟踪器,双分支架构均稳定优于仅视频分支,最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪,验证了架构的鲁棒性。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

实验结果表明,VideoOrion在多项基准测试中展现显著优势。在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA等数据集上,VideoOrion(7B)全面超越同骨干网络的VideoLLaMA2/2.1,相对涨幅分别达+10.1%、+14.6%、+15.6%、+8.7%、+7.8%。具体数值显示,在7B LLM配置下,MVBench得分63.5、EgoSchema 65.1、Perception-Test 65.2、VideoMME 54.6–55.3、ActivityNet-QA 57.7–3.7,相较于多款开源与闭源同规模模型具有明显领先优势。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

得益于显式Object Tokens设计,VideoOrion天然支持视频指代任务。通过在提示模板中将目标对象Token填入占位符,模型即可实现“指这个物体在做什么”的精准问答。在VideoRef45K数据集上的测试显示,该方法零样本即有效,经小规模指代数据微调后,在BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE等指标上全面领先Artemis、Merlin等方法,证实Object Tokens对指代理解的直接助益。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

消融实验深入揭示了Object Tokens的必要性与适度性:移除对象分支会导致各基准性能下降;对象分支预训练对性能提升至关重要;Object Tokens数量在64个时达到最佳平衡,过少则信息不足,过多则注意力分散;仅使用Object Tokens会损失背景线索,但在对象细节任务中与仅视频分支表现相当,凸显其信息密度优势。

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

尽管成果显著,VideoOrion仍存在局限性:引入检测/分割/跟踪视觉模型带来约38.5%的时延开销,低质量视频可能导致掩码不准;当前仍依赖视频分支提供上下文,对象与场景的最优融合机制有待进一步探索。团队指出,该框架并非替代视频特征,而是对象-场景双视角的结构化重写,兼顾全局把握与关键抓取。这一范式有望深刻影响视频问答、检索、机器人感知及视频创作等多模态应用,推动视频理解向更精细、更可解释的方向演进。

— 图片补充 —

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6121

(0)
上一篇 2025年11月27日 上午11:50
下一篇 2025年11月27日 下午12:15

相关推荐

  • AutoGLM开源:大模型从Chat到Act的范式突破,开启手机智能体新纪元

    近日,智谱AI全面开源了AutoGLM项目,这一基于视觉语言模型的手机智能助理框架,标志着大模型技术从“对话”到“行动”的范式转变迈出了关键一步。用户仅需用自然语言描述任务,AI便能理解意图、识别手机屏幕内容并自动执行操作,真正实现了让手机“自己动起来”的愿景。这一突破不仅为AI应用落地开辟了新路径,更在具身智能与智能体领域引发了广泛关注。 从技术架构来看,…

    2025年12月12日
    10100
  • ReSeek框架:赋予搜索智能体动态自我修正能力,突破推理链中的连锁错误瓶颈

    在人工智能技术快速发展的今天,搜索智能体(Search Agent)作为连接大语言模型与实时信息世界的关键桥梁,正面临两大核心挑战:知识的实时性与推理的复杂性。传统的检索增强生成(RAG)技术虽然能够引入外部知识,但其本质上仍是被动的信息检索过程。而搜索智能体的革命性突破在于,它能够通过与实时搜索引擎进行多轮交互,主动分解并执行复杂的多步任务。这种能力在人物…

    2025年11月18日
    7700
  • 信仰与算法的终极博弈:前谷歌研究员如何向梵蒂冈预警AGI末日危机

    在人工智能技术飞速发展的今天,关于通用人工智能(AGI)可能带来的生存风险讨论已从硅谷实验室延伸至全球最古老的权力中心——梵蒂冈。前谷歌研究员约翰-克拉克·莱文(John-Clark Levin)正领导一场独特的游说行动,试图让天主教廷正视AGI可能引发的“代码末日”,这场信仰与算法之间的博弈,或将重塑人类在智能时代的命运轨迹。 莱文并非普通的科技从业者。作…

    2025年12月2日
    8100
  • 火山引擎发布豆包视频生成模型Seedance 1.5 Pro,实现音画高精度同步

    火山引擎在FORCE原动力大会上推出最新豆包视频生成模型Seedance 1.5 Pro。该模型主打音画高精度同步功能,能够通过单一Prompt同时生成人物对白配音、背景音乐和音效。 Seedance 1.5 Pro的核心亮点包括: 1. 音画高精度同步:背景音乐、音效和人物对话均能按照剧情发展保持高度一致。 2. 支持多人多方言:原生支持四川话、粤语、上海…

    2025年12月18日
    11100
  • 具身智能产业激辩实录:架构革命、数据路径与落地挑战的深度剖析

    2025年被业界普遍视为具身智能的爆发元年,这一领域正经历从概念验证到产业落地的关键转折。在北京鼎好大厦举行的智源具身2025 OpenDay现场,30余家顶尖具身智能企业的创始人、技术负责人齐聚一堂,围绕行业核心议题展开了长达四小时的深度辩论。这场汇聚产学研用各方的对话,不仅揭示了当前行业的技术分歧,更勾勒出未来发展的清晰路径。 在智源研究院院长王仲远的主…

    2025年11月21日
    7400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注