视频理解
-
VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破
在视频理解领域,信息复杂度远超静态图像,传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型,导致细节丢失与语义纠缠问题。为此,北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架,通过将前景显著的时空动态编码为Object Tokens,并与Context Tokens并行输入大语言模型,构建出高效、可解释且具备指代能力…
-
寒武纪-S:重新定义空间智能,开启AI超感知时代
在人工智能技术快速迭代的当下,一个名为“寒武纪-S”(Cambrian-S)的项目正悄然引发行业深度思考。该项目由谢赛宁牵头,并获得了李飞飞和Yann LeCun等顶尖学者的支持,其核心目标并非追逐传统的芯片硬件竞赛,而是直指AI发展的一个根本性挑战:如何让人工智能真正学会感知和理解三维空间世界。 寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模…
-
Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考
在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…