VideoOrion：以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

2025年11月27日下午12:11 • AI产业动态 • 阅读 346

在视频理解领域，信息复杂度远超静态图像，传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型，导致细节丢失与语义纠缠问题。为此，北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架，通过将前景显著的时空动态编码为Object Tokens，并与Context Tokens并行输入大语言模型，构建出高效、可解释且具备指代能力的视频理解新架构。该成果已被ICCV 2025以554高分接收，标志着视频语义解析迈入对象中心化新阶段。

VideoOrion的核心创新在于将对象及其跨帧演化作为一级语义单元，显式提炼为离散的Object Tokens。这种方法不仅压缩了数据量，更使LLM能够沿对象维度整合细节，显著提升细粒度问答能力，并为需要“锁定实例”的指代任务提供天然接口。例如，在描述“红色三轮滑板车拖拽组件”或“黑色泳装者完成跳板后空翻”等场景时，模型能精准捕捉对象级动作要素，而非仅提供笼统的场景描述。

技术实现上，VideoOrion采用双分支并行编码架构：Context Tokens分支使用CLIP（VideoOrion）或SigLIP（VideoOrion+）编码采样帧，经STC Connector投影为上下文Token，承载背景与场景等泛化信息；Object Tokens分支则通过检测-分割-跟踪三步流水线，首先用GroundingDINO在关键帧生成对象候选框，再通过SAM细化为精确对象掩码，最后利用XMem跨帧跟踪掩码序列，对池化特征投影形成紧凑的Object Tokens。两类Token共同输入LLM进行融合推理，实现对象与场景的协同理解。

为应对视频中前景对象进出画面、场景突变等挑战，研究团队提出自适应切片机制，根据前景物体变化动态调整检测与关联策略，避免均匀分段导致的跨段错配。在对象流水线组件的替换实验中，无论使用RAM++、Mask2Former作为提案器，或调整分段策略，或以SAM2替代XMem跟踪器，双分支架构均稳定优于仅视频分支，最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪，验证了架构的鲁棒性。

实验结果表明，VideoOrion在多项基准测试中展现显著优势。在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA等数据集上，VideoOrion（7B）全面超越同骨干网络的VideoLLaMA2/2.1，相对涨幅分别达+10.1%、+14.6%、+15.6%、+8.7%、+7.8%。具体数值显示，在7B LLM配置下，MVBench得分63.5、EgoSchema 65.1、Perception-Test 65.2、VideoMME 54.6–55.3、ActivityNet-QA 57.7–3.7，相较于多款开源与闭源同规模模型具有明显领先优势。

得益于显式Object Tokens设计，VideoOrion天然支持视频指代任务。通过在提示模板中将目标对象Token填入占位符，模型即可实现“指这个物体在做什么”的精准问答。在VideoRef45K数据集上的测试显示，该方法零样本即有效，经小规模指代数据微调后，在BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE等指标上全面领先Artemis、Merlin等方法，证实Object Tokens对指代理解的直接助益。

消融实验深入揭示了Object Tokens的必要性与适度性：移除对象分支会导致各基准性能下降；对象分支预训练对性能提升至关重要；Object Tokens数量在64个时达到最佳平衡，过少则信息不足，过多则注意力分散；仅使用Object Tokens会损失背景线索，但在对象细节任务中与仅视频分支表现相当，凸显其信息密度优势。

尽管成果显著，VideoOrion仍存在局限性：引入检测/分割/跟踪视觉模型带来约38.5%的时延开销，低质量视频可能导致掩码不准；当前仍依赖视频分支提供上下文，对象与场景的最优融合机制有待进一步探索。团队指出，该框架并非替代视频特征，而是对象-场景双视角的结构化重写，兼顾全局把握与关键抓取。这一范式有望深刻影响视频问答、检索、机器人感知及视频创作等多模态应用，推动视频理解向更精细、更可解释的方向演进。

— 图片补充 —