Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一突破性成果不仅让AI在回答视频相关问题时能够同步标出具体的时间点与空间位置,更在模型架构与训练方法论上实现了根本性创新,为可解释性视频推理树立了新的标杆。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video的核心能力在于其实现了“看—想—证—答”的闭环推理。与依赖复杂工具调用和多轮交互的智能体(Agent)架构不同,该模型采用non-agent设计,能够在单次回复中直接完成从感知到论证的全过程。如图例所示,当被问及“视频中何时出现了小狗”时,模型不仅能给出“第12秒”的答案,还能在生成的思维链中嵌入如“dog[x1, y1, x2, y2] at 12s”的结构化证据,直观指向关键帧与目标框。这种显式的时空标注,使得模型的推理过程变得透明、可追溯,从根本上解决了以往视频大模型“答对却无法证”的痛点。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在技术实现上,Open-o3 Video的卓越性能源于两大支柱:首个面向显式时空推理的统一语料体系STGR(Spatio-Temporal Grounded Reasoning),以及一套创新的两阶段训练方法。视频推理的长期瓶颈在于数据——现有数据集多仅提供时间戳或空间框的单维度标注,缺乏时空耦合的思维链数据。为此,团队构建了STGR-CoT-30k(用于监督微调)与STGR-RL-36k(用于强化学习)两部分语料,涵盖时序定位、空间定位、时空定位与视频问答四类任务。数据构建流程严谨:首先利用Gemini 2.5 Pro生成初始的问题-答案对及推理链;随后通过面积过滤与Qwen2.5-VL-7B的类别验证来清洗低质量检测框;最后进行严格的一致性检查,确保问题、答案、时间戳、物体框与推理链一一对应。这套高质量语料为模型学习“如何思考”奠定了坚实基础。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

然而,仅靠监督微调(SFT)难以让模型真正掌握主动发现并引用视觉证据的能力。团队发现,SFT阶段模型更多是在模仿标注格式,而非内化逻辑关联。因此,Open-o3 Video引入了以强化学习为核心的双阶段训练机制。第一阶段为“冷启动预训练”,模型通过STGR-CoT-30k学习基础的推理格式与输出规范,相当于“教模型说话”。第二阶段则采用基于GSPO(一种序列优化方法)的强化学习,让模型在开放视频场景中生成完整推理链,并通过多维度奖励函数进行自我校正。该奖励函数精心设计为三部分:r_acc评估答案准确性;r_thk衡量推理链的合理性与对视觉证据的利用率(如计算时序IoU与空间IoU);r_fmt检查输出格式规范性。这种设计确保模型不仅追求答案正确,更优化其思考过程本身。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

训练中的关键挑战在于时空奖励的耦合优化。空间奖励(如边界框IoU)高度依赖于时间预测的准确性——若时间预测错误,即使空间框正确也无法与真值对应。团队通过动态调整时序约束的策略平衡了训练稳定性与精度:初期使用宽松约束避免奖励稀疏,后期逐步收紧以提升对齐精度。这一创新有效解决了多模态强化学习中常见的训练崩溃或奖励饱和问题。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

实验结果表明,Open-o3 Video在多个视频推理基准测试中实现了显著提升,关键指标最高提升达24.2%,性能超越GPT-4o、Gemini-2-Flash等主流闭源模型。其成功不仅体现在数值优势,更在于开创了视频推理的新范式——将OpenAI o3系列“Thinking with Images”的理念扩展至视频域,实现了时空双维度的可解释推理。这为AI在安防监控、内容审核、自动驾驶、交互式教育等需要精确时空理解的场景提供了可靠工具。未来,随着更多时空标注数据的开放与模型效率的优化,Open-o3 Video有望推动视频大模型从“黑箱猜测”迈向“白箱论证”的新时代。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

总之,Open-o3 Video的发布标志着视频理解技术的一次重要跃迁。它通过创新的数据体系、训练框架与模型设计,首次让AI在视频推理中实现了“有迹可循”的思考,为多模态可解释人工智能的发展开辟了切实可行的路径。

— 图片补充 —

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8130

(0)
上一篇 2025年11月5日 下午12:00
下一篇 2025年11月5日 下午3:29

相关推荐

  • 从IMO金牌到首位80后院士:刘若川的数学之路与北大黄金一代的科研场域

    在2024年中国科学院院士增选中,北京大学数学科学学院副院长刘若川的当选,不仅标志着首位“80后”院士的诞生,更折射出中国基础数学研究领域新一代领军力量的崛起。这位44岁的数学家,以其在算术几何与代数数论领域的开创性贡献,成为连接国际数学前沿与中国本土科研的重要桥梁。 刘若川的学术轨迹堪称典范。1999年,他以国际数学奥林匹克竞赛(IMO)金牌得主的身份保送…

    2025年11月22日
    8300
  • FlowithOS深度评测:专为AI Agent打造的操作系统,能否重塑浏览器智能化格局?

    近期,浏览器市场正经历一场由AI驱动的深刻变革。从Comet到Atlas,各大厂商纷纷将AI能力深度集成至浏览器中,试图在智能化浪潮中抢占先机。然而,这些尝试往往受限于网络环境、系统兼容性或付费门槛,用户体验参差不齐。在此背景下,Flowith推出的FlowithOS——全球首款专为AI Agent打造的操作系统,以其独特的定位吸引了广泛关注。它虽外观类似浏…

    2025年11月15日
    8700
  • 月之暗面Seer引擎:突破LLM强化学习训练瓶颈,实现同步RL效率革命性提升

    在大型语言模型(LLM)快速发展的当下,强化学习(RL)已成为推动模型能力跃迁的核心技术。然而,随着模型规模不断扩大和任务复杂度持续提升,传统RL训练系统在端到端迭代过程中暴露出的性能瓶颈日益凸显,尤其是在生成阶段(rollout phase),资源利用率低、长尾延迟严重等问题严重制约了训练效率的进一步提升。 针对这一行业痛点,月之暗面联合清华大学研究团队近…

    2025年11月27日
    9300
  • 好莱坞的静默革命:AI数字替身如何重塑动物演员生态与影视创作伦理

    在当代影视工业的数字化转型浪潮中,一场深刻而静默的变革正在好莱坞的片场悄然上演。传统动物演员正被AI生成的数字替身系统性地替代,这一现象不仅反映了技术对娱乐产业的渗透深度,更触及了艺术创作、伦理边界与产业生态的多重维度。本文将从技术实现路径、产业经济逻辑、伦理争议及艺术价值四个层面,对这一趋势进行系统性分析。 从技术实现角度看,AI动物替身的核心在于三维扫描…

    2025年11月9日
    8200
  • 阿里千问App全球首发AI办事功能:一句话点奶茶背后的全模态理解与AI Coding革命

    总裁现场喊话AI点40杯奶茶,然后骑手送到了!阿里千问这次玩真的。 1月15日,千问App上线超400项AI办事功能,成为全球首个能完成真实生活复杂任务的AI助手。千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 同时,千问App“任务助理”开启邀测,包括移动端和网…

    2026年1月15日
    8100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注