Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一突破性成果不仅让AI在回答视频相关问题时能够同步标出具体的时间点与空间位置,更在模型架构与训练方法论上实现了根本性创新,为可解释性视频推理树立了新的标杆。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video的核心能力在于其实现了“看—想—证—答”的闭环推理。与依赖复杂工具调用和多轮交互的智能体(Agent)架构不同,该模型采用non-agent设计,能够在单次回复中直接完成从感知到论证的全过程。如图例所示,当被问及“视频中何时出现了小狗”时,模型不仅能给出“第12秒”的答案,还能在生成的思维链中嵌入如“dog[x1, y1, x2, y2] at 12s”的结构化证据,直观指向关键帧与目标框。这种显式的时空标注,使得模型的推理过程变得透明、可追溯,从根本上解决了以往视频大模型“答对却无法证”的痛点。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在技术实现上,Open-o3 Video的卓越性能源于两大支柱:首个面向显式时空推理的统一语料体系STGR(Spatio-Temporal Grounded Reasoning),以及一套创新的两阶段训练方法。视频推理的长期瓶颈在于数据——现有数据集多仅提供时间戳或空间框的单维度标注,缺乏时空耦合的思维链数据。为此,团队构建了STGR-CoT-30k(用于监督微调)与STGR-RL-36k(用于强化学习)两部分语料,涵盖时序定位、空间定位、时空定位与视频问答四类任务。数据构建流程严谨:首先利用Gemini 2.5 Pro生成初始的问题-答案对及推理链;随后通过面积过滤与Qwen2.5-VL-7B的类别验证来清洗低质量检测框;最后进行严格的一致性检查,确保问题、答案、时间戳、物体框与推理链一一对应。这套高质量语料为模型学习“如何思考”奠定了坚实基础。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

然而,仅靠监督微调(SFT)难以让模型真正掌握主动发现并引用视觉证据的能力。团队发现,SFT阶段模型更多是在模仿标注格式,而非内化逻辑关联。因此,Open-o3 Video引入了以强化学习为核心的双阶段训练机制。第一阶段为“冷启动预训练”,模型通过STGR-CoT-30k学习基础的推理格式与输出规范,相当于“教模型说话”。第二阶段则采用基于GSPO(一种序列优化方法)的强化学习,让模型在开放视频场景中生成完整推理链,并通过多维度奖励函数进行自我校正。该奖励函数精心设计为三部分:r_acc评估答案准确性;r_thk衡量推理链的合理性与对视觉证据的利用率(如计算时序IoU与空间IoU);r_fmt检查输出格式规范性。这种设计确保模型不仅追求答案正确,更优化其思考过程本身。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

训练中的关键挑战在于时空奖励的耦合优化。空间奖励(如边界框IoU)高度依赖于时间预测的准确性——若时间预测错误,即使空间框正确也无法与真值对应。团队通过动态调整时序约束的策略平衡了训练稳定性与精度:初期使用宽松约束避免奖励稀疏,后期逐步收紧以提升对齐精度。这一创新有效解决了多模态强化学习中常见的训练崩溃或奖励饱和问题。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

实验结果表明,Open-o3 Video在多个视频推理基准测试中实现了显著提升,关键指标最高提升达24.2%,性能超越GPT-4o、Gemini-2-Flash等主流闭源模型。其成功不仅体现在数值优势,更在于开创了视频推理的新范式——将OpenAI o3系列“Thinking with Images”的理念扩展至视频域,实现了时空双维度的可解释推理。这为AI在安防监控、内容审核、自动驾驶、交互式教育等需要精确时空理解的场景提供了可靠工具。未来,随着更多时空标注数据的开放与模型效率的优化,Open-o3 Video有望推动视频大模型从“黑箱猜测”迈向“白箱论证”的新时代。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

总之,Open-o3 Video的发布标志着视频理解技术的一次重要跃迁。它通过创新的数据体系、训练框架与模型设计,首次让AI在视频推理中实现了“有迹可循”的思考,为多模态可解释人工智能的发展开辟了切实可行的路径。

— 图片补充 —

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8130

(0)
上一篇 2025年11月5日 下午12:00
下一篇 2025年11月5日 下午3:29

相关推荐

  • 口袋里的AI超算革命:无影云电脑如何让个人开发者拥有随叫随到的云端算力

    桌面感体验,超算级算力。 很多开发者都有过类似的时刻:模型规模越来越大,本地设备开始力不从心。程序刚跑起来,风扇声就呼啸而起,显存占用迅速拉满,进度条却仿佛被按下了暂停键。问题不在模型,而在于本地电脑已触及能力边界。 对个人开发者乃至中小企业而言,这几乎是绕不开的现实。本地设备性能有限,尝试稍大一些的模型便会捉襟见肘。高性能工作站固然存在,但其价格与维护成本…

    2026年1月10日
    4900
  • 2026全球算力格局重塑:十大趋势深度洞察与AI算力革命前瞻

    序言:算力重构全球竞争秩序,新质生产力的核心引擎 本报告基于全球算力产业最新发展动态,结合AI云原生智能算力架构的权威研判、政策导向及产业一线数据,深度解读2026年全球算力十大趋势,系统分析国内外GPU/CPU算力产业链格局、太空算力发展现状,并为产业从业者与投资者提供兼具科学性、技术性与实操性的深度洞察。 2026年,人工智能浪潮进入纵深演进阶段,算力作…

    AI产业动态 2026年1月25日
    19500
  • 科大讯飞星火X1.5:从“更聪明”到“更懂你”的国产AI新范式

    在人工智能技术快速迭代的今天,大模型的能力边界正被不断拓展,参数规模和基准测试成绩一度成为行业竞争的焦点。然而,当技术门槛逐渐被拉平,单纯追求“更聪明”的AI已难以形成持久的竞争优势。科大讯飞在第八届世界声博会暨2025全球1024开发者节上,给出了一个清晰的答案:AI的进化方向应从“能力至上”转向“体验优先”,核心在于构建“更懂你”的智能体。 这一理念并非…

    2025年11月6日
    7200
  • AIGC营销新范式:美团闪购如何用AI技术实现品牌价值精准传递

    一水 发自 凹非寺 量子位 | 公众号 QbitAI 唯“快”不破的美团闪购,这次进行了一次AIGC技术流营销的实践。 从已公开的视频来看,他们回应了一个近年来被反复提及却鲜有明确答案的问题:在当前时代,品牌方究竟该如何使用AIGC? 答案看似简单,甚至有些朴素:不是将AI用作噱头,而是将其作为“品牌价值的放大器”。 简而言之,过去一两年,AIGC在营销领域…

    2026年1月16日
    9100
  • Visionary:基于WebGPU+ONNX的下一代世界模型渲染平台,全面超越Marble底层架构

    该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。 在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。 Marble 所依赖的基于 WebGL 的 3D Gaussia…

    2025年12月21日
    8000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注