Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一突破性成果不仅让AI在回答视频相关问题时能够同步标出具体的时间点与空间位置,更在模型架构与训练方法论上实现了根本性创新,为可解释性视频推理树立了新的标杆。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video的核心能力在于其实现了“看—想—证—答”的闭环推理。与依赖复杂工具调用和多轮交互的智能体(Agent)架构不同,该模型采用non-agent设计,能够在单次回复中直接完成从感知到论证的全过程。如图例所示,当被问及“视频中何时出现了小狗”时,模型不仅能给出“第12秒”的答案,还能在生成的思维链中嵌入如“dog[x1, y1, x2, y2] at 12s”的结构化证据,直观指向关键帧与目标框。这种显式的时空标注,使得模型的推理过程变得透明、可追溯,从根本上解决了以往视频大模型“答对却无法证”的痛点。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在技术实现上,Open-o3 Video的卓越性能源于两大支柱:首个面向显式时空推理的统一语料体系STGR(Spatio-Temporal Grounded Reasoning),以及一套创新的两阶段训练方法。视频推理的长期瓶颈在于数据——现有数据集多仅提供时间戳或空间框的单维度标注,缺乏时空耦合的思维链数据。为此,团队构建了STGR-CoT-30k(用于监督微调)与STGR-RL-36k(用于强化学习)两部分语料,涵盖时序定位、空间定位、时空定位与视频问答四类任务。数据构建流程严谨:首先利用Gemini 2.5 Pro生成初始的问题-答案对及推理链;随后通过面积过滤与Qwen2.5-VL-7B的类别验证来清洗低质量检测框;最后进行严格的一致性检查,确保问题、答案、时间戳、物体框与推理链一一对应。这套高质量语料为模型学习“如何思考”奠定了坚实基础。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

然而,仅靠监督微调(SFT)难以让模型真正掌握主动发现并引用视觉证据的能力。团队发现,SFT阶段模型更多是在模仿标注格式,而非内化逻辑关联。因此,Open-o3 Video引入了以强化学习为核心的双阶段训练机制。第一阶段为“冷启动预训练”,模型通过STGR-CoT-30k学习基础的推理格式与输出规范,相当于“教模型说话”。第二阶段则采用基于GSPO(一种序列优化方法)的强化学习,让模型在开放视频场景中生成完整推理链,并通过多维度奖励函数进行自我校正。该奖励函数精心设计为三部分:r_acc评估答案准确性;r_thk衡量推理链的合理性与对视觉证据的利用率(如计算时序IoU与空间IoU);r_fmt检查输出格式规范性。这种设计确保模型不仅追求答案正确,更优化其思考过程本身。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

训练中的关键挑战在于时空奖励的耦合优化。空间奖励(如边界框IoU)高度依赖于时间预测的准确性——若时间预测错误,即使空间框正确也无法与真值对应。团队通过动态调整时序约束的策略平衡了训练稳定性与精度:初期使用宽松约束避免奖励稀疏,后期逐步收紧以提升对齐精度。这一创新有效解决了多模态强化学习中常见的训练崩溃或奖励饱和问题。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

实验结果表明,Open-o3 Video在多个视频推理基准测试中实现了显著提升,关键指标最高提升达24.2%,性能超越GPT-4o、Gemini-2-Flash等主流闭源模型。其成功不仅体现在数值优势,更在于开创了视频推理的新范式——将OpenAI o3系列“Thinking with Images”的理念扩展至视频域,实现了时空双维度的可解释推理。这为AI在安防监控、内容审核、自动驾驶、交互式教育等需要精确时空理解的场景提供了可靠工具。未来,随着更多时空标注数据的开放与模型效率的优化,Open-o3 Video有望推动视频大模型从“黑箱猜测”迈向“白箱论证”的新时代。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

总之,Open-o3 Video的发布标志着视频理解技术的一次重要跃迁。它通过创新的数据体系、训练框架与模型设计,首次让AI在视频推理中实现了“有迹可循”的思考,为多模态可解释人工智能的发展开辟了切实可行的路径。

— 图片补充 —

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8130

(0)
上一篇 2025年11月5日 下午12:00
下一篇 2025年11月5日 下午3:29

相关推荐

  • React与LangGraph的无缝连接:useAgent Hook实现全栈AI Agent实时交互

    AI agent 正在迅速从令人惊叹的演示演进到大规模的生产级应用,而 LangGraph 让这一转变比以往更顺畅。但在此之前,将这些 agent 连接到前端并为用户提供实时交互,往往需要处理复杂的 API、状态管理,并依赖一定的运气。 现在介绍 useAgent —— 一个简单的 React Hook,能让你的前端直接连接到 LangGraph agent…

    2026年1月17日
    24100
  • RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

    复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni,标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态,实现了动作生成与语音交互的协同控制,并开源了140K条语音-视觉-文字“情境指令”真机操作数据集,为具身智能领域提供了重要的技术突破和数据资源。 在传统机器人交互中,系统通常依…

    2025年11月11日
    25800
  • 好莱坞的静默革命:AI数字替身如何重塑动物演员生态与影视创作伦理

    在当代影视工业的数字化转型浪潮中,一场深刻而静默的变革正在好莱坞的片场悄然上演。传统动物演员正被AI生成的数字替身系统性地替代,这一现象不仅反映了技术对娱乐产业的渗透深度,更触及了艺术创作、伦理边界与产业生态的多重维度。本文将从技术实现路径、产业经济逻辑、伦理争议及艺术价值四个层面,对这一趋势进行系统性分析。 从技术实现角度看,AI动物替身的核心在于三维扫描…

    2025年11月9日
    20000
  • DeepSeek GitHub仓库突现密集更新,华尔街警惕“DeepSeek第二时刻”来临

    DeepSeek员工节后开工,美国AI圈神经再绷紧 DeepSeek员工节后一上班,美国AI圈又要抖三抖了。 就从十几个小时前开始,DeepSeek的GitHub仓库突然一阵猛更新,Merge了一堆PR: 维护者主要是 mowentian ——DeepSeekMoE等论文的署名作者之一Huang Panpan。他这一干活不要紧,大洋彼岸“V4来了???”的紧…

    2026年2月25日
    19700
  • ATEC2025线下挑战赛:全户外自主机器人极限测试,揭示具身智能四大技术瓶颈

    近日,第五届ATEC科技精英赛线下赛在香港中文大学圆满落幕。作为全球首个聚焦实景极端环境的人工智能与机器人赛事,本届比赛首次将机器人从实验室完全迁移至户外复杂场景,在无遥操作干预的前提下,要求机器人自主完成一系列高难度任务。这不仅是对当前机器人技术极限的公开检验,更是具身智能发展进程中的一次里程碑式事件。 比赛设置了垃圾分拣、自主浇花、定向越野和吊桥穿越四大…

    2025年12月8日
    22700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注