对象动态编码

AI产业动态

VideoOrion：以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

在视频理解领域，信息复杂度远超静态图像，传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型，导致细节丢失与语义纠缠问题。为此，北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架，通过将前景显著的时空动态编码为Object Tokens，并与Context Tokens并行输入大语言模型，构建出高效、可解释且具备指代能力…

2025年11月27日
173000