Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一突破性成果不仅让AI在回答视频相关问题时能够同步标出具体的时间点与空间位置,更在模型架构与训练方法论上实现了根本性创新,为可解释性视频推理树立了新的标杆。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video的核心能力在于其实现了“看—想—证—答”的闭环推理。与依赖复杂工具调用和多轮交互的智能体(Agent)架构不同,该模型采用non-agent设计,能够在单次回复中直接完成从感知到论证的全过程。如图例所示,当被问及“视频中何时出现了小狗”时,模型不仅能给出“第12秒”的答案,还能在生成的思维链中嵌入如“dog[x1, y1, x2, y2] at 12s”的结构化证据,直观指向关键帧与目标框。这种显式的时空标注,使得模型的推理过程变得透明、可追溯,从根本上解决了以往视频大模型“答对却无法证”的痛点。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在技术实现上,Open-o3 Video的卓越性能源于两大支柱:首个面向显式时空推理的统一语料体系STGR(Spatio-Temporal Grounded Reasoning),以及一套创新的两阶段训练方法。视频推理的长期瓶颈在于数据——现有数据集多仅提供时间戳或空间框的单维度标注,缺乏时空耦合的思维链数据。为此,团队构建了STGR-CoT-30k(用于监督微调)与STGR-RL-36k(用于强化学习)两部分语料,涵盖时序定位、空间定位、时空定位与视频问答四类任务。数据构建流程严谨:首先利用Gemini 2.5 Pro生成初始的问题-答案对及推理链;随后通过面积过滤与Qwen2.5-VL-7B的类别验证来清洗低质量检测框;最后进行严格的一致性检查,确保问题、答案、时间戳、物体框与推理链一一对应。这套高质量语料为模型学习“如何思考”奠定了坚实基础。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

然而,仅靠监督微调(SFT)难以让模型真正掌握主动发现并引用视觉证据的能力。团队发现,SFT阶段模型更多是在模仿标注格式,而非内化逻辑关联。因此,Open-o3 Video引入了以强化学习为核心的双阶段训练机制。第一阶段为“冷启动预训练”,模型通过STGR-CoT-30k学习基础的推理格式与输出规范,相当于“教模型说话”。第二阶段则采用基于GSPO(一种序列优化方法)的强化学习,让模型在开放视频场景中生成完整推理链,并通过多维度奖励函数进行自我校正。该奖励函数精心设计为三部分:r_acc评估答案准确性;r_thk衡量推理链的合理性与对视觉证据的利用率(如计算时序IoU与空间IoU);r_fmt检查输出格式规范性。这种设计确保模型不仅追求答案正确,更优化其思考过程本身。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

训练中的关键挑战在于时空奖励的耦合优化。空间奖励(如边界框IoU)高度依赖于时间预测的准确性——若时间预测错误,即使空间框正确也无法与真值对应。团队通过动态调整时序约束的策略平衡了训练稳定性与精度:初期使用宽松约束避免奖励稀疏,后期逐步收紧以提升对齐精度。这一创新有效解决了多模态强化学习中常见的训练崩溃或奖励饱和问题。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

实验结果表明,Open-o3 Video在多个视频推理基准测试中实现了显著提升,关键指标最高提升达24.2%,性能超越GPT-4o、Gemini-2-Flash等主流闭源模型。其成功不仅体现在数值优势,更在于开创了视频推理的新范式——将OpenAI o3系列“Thinking with Images”的理念扩展至视频域,实现了时空双维度的可解释推理。这为AI在安防监控、内容审核、自动驾驶、交互式教育等需要精确时空理解的场景提供了可靠工具。未来,随着更多时空标注数据的开放与模型效率的优化,Open-o3 Video有望推动视频大模型从“黑箱猜测”迈向“白箱论证”的新时代。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

总之,Open-o3 Video的发布标志着视频理解技术的一次重要跃迁。它通过创新的数据体系、训练框架与模型设计,首次让AI在视频推理中实现了“有迹可循”的思考,为多模态可解释人工智能的发展开辟了切实可行的路径。

— 图片补充 —

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8130

(0)
上一篇 2025年11月5日 下午12:00
下一篇 2025年11月5日 下午3:29

相关推荐

  • ICLR 2026数据泄露事件深度剖析:从API漏洞到AI生成审稿的学术信任危机

    2025年11月27日,全球AI学术圈经历了一场前所未有的信任危机。国际学习表征会议(ICLR)2026的评审系统因OpenReview平台的一个API漏洞,导致超过1万篇投稿论文的评审信息在61分钟内大规模泄露。这一事件不仅暴露了学术评审系统的安全脆弱性,更引发了关于同行评审制度有效性和AI在学术评价中角色的深刻反思。 技术层面的漏洞分析显示,问题根源在于…

    2025年12月4日
    46900
  • 深度解析Depth Anything 3:单Transformer统一3D视觉任务,字节跳动如何重塑几何感知新范式

    在计算机视觉领域,3D重建与几何感知一直是核心挑战之一。传统方法往往需要针对不同任务设计专用模型,如单目深度估计、多视角重建、相机姿态估计等,这不仅增加了开发复杂度,也限制了模型的泛化能力与数据利用效率。近日,字节跳动Seed团队的Depth Anything 3(DA3)研究成果,以单一Transformer架构统一了多种3D视觉任务,在视觉几何基准上取得…

    2025年11月18日
    37900
  • 18岁高中生用AI发现150万未知天体,OpenAI首期ChatGPT Futures名单揭示AI原住民如何改写未来

    OpenAI 近日发布了一个名为「ChatGPT Futures」的全新页面。页面中列出了 26 名年轻的入选者(或团队),每位(或每个团队)均获得了 1 万美元的奖金,并拥有前沿 AI 模型的访问权限。 其中最引人注目的名字之一是 Matteo Paz。去年 3 月,他还是一名 18 岁的高中生。他开发了一种机器学习算法,处理了 NASA 的 NEOWIS…

    5天前
    18200
  • GPT-5.5发布:性能碾压Claude Opus 4.7,OpenAI反击Anthropic估值神话

    据外媒 Business Insider 报道,Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照,OpenAI 今年 3 月末最新一轮融资的估值,仍停留在 8520 亿美元。除了业内老生常谈的「AI 泡沫论」,这组对比数据也表明了曾经稳坐头把交椅的 OpenAI,如今正在直面被追赶、被超越的压力,但没有让我们等待多久,OpenAI 的反…

    2026年4月24日
    49500
  • 陶哲轩领衔SAIR:AI for Science的正确路径与学术界深度参与之道

    最近,数学家、菲尔兹奖得主陶哲轩联合多位顶尖科学家与世界级奖项得主,共同发起创立了一家专注于人工智能与科学研究的基金会——SAIR。 在SAIR成立当天,陶哲轩阐述了该机构的使命:致力于探索新的科学研究范式。他表示:“作为联合创始人,我很高兴能够汇聚数学与各科学领域的顶尖研究者,共同探讨人工智能与新兴技术如何加速科学发现,并开启新的研究工作流程。” 这一举动…

    2026年2月11日
    39600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注