视频理解 - 鲸林向海

VideoOrion：以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

在视频理解领域，信息复杂度远超静态图像，传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型，导致细节丢失与语义纠缠问题。为此，北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架，通过将前景显著的时空动态编码为Object Tokens，并与Context Tokens并行输入大语言模型，构建出高效、可解释且具备指代能力…

2025年11月27日

171000

AI产业动态

寒武纪-S：重新定义空间智能，开启AI超感知时代

在人工智能技术快速迭代的当下，一个名为“寒武纪-S”（Cambrian-S）的项目正悄然引发行业深度思考。该项目由谢赛宁牵头，并获得了李飞飞和Yann LeCun等顶尖学者的支持，其核心目标并非追逐传统的芯片硬件竞赛，而是直指AI发展的一个根本性挑战：如何让人工智能真正学会感知和理解三维空间世界。寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模…

2025年11月24日

157000

AI产业动态

迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

在人工智能迈向通用智能（AGI）的漫长征程中，一个根本性的哲学问题日益凸显：在构建超级智能之前，我们首先需要什么？近期，由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S：迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向，更可能重新定义AI感知能力的演进路径。三位作者的组合…

2025年11月10日

150000

AI产业动态

Open-o3 Video：首个显式时空证据嵌入的视频推理开源模型，实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中，视频理解因其同时承载时间动态与空间交互的复杂性，始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”，却难以精准指出事件“何时何地”发生，其推理过程往往如同黑箱，缺乏可解释的视觉证据支撑。近日，来自北京大学与字节跳动的联合研究团队，正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…

2025年11月5日

183000