对象动态编码
-
VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破
在视频理解领域,信息复杂度远超静态图像,传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型,导致细节丢失与语义纠缠问题。为此,北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架,通过将前景显著的时空动态编码为Object Tokens,并与Context Tokens并行输入大语言模型,构建出高效、可解释且具备指代能力…