Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一突破性成果不仅让AI在回答视频相关问题时能够同步标出具体的时间点与空间位置,更在模型架构与训练方法论上实现了根本性创新,为可解释性视频推理树立了新的标杆。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video的核心能力在于其实现了“看—想—证—答”的闭环推理。与依赖复杂工具调用和多轮交互的智能体(Agent)架构不同,该模型采用non-agent设计,能够在单次回复中直接完成从感知到论证的全过程。如图例所示,当被问及“视频中何时出现了小狗”时,模型不仅能给出“第12秒”的答案,还能在生成的思维链中嵌入如“dog[x1, y1, x2, y2] at 12s”的结构化证据,直观指向关键帧与目标框。这种显式的时空标注,使得模型的推理过程变得透明、可追溯,从根本上解决了以往视频大模型“答对却无法证”的痛点。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

在技术实现上,Open-o3 Video的卓越性能源于两大支柱:首个面向显式时空推理的统一语料体系STGR(Spatio-Temporal Grounded Reasoning),以及一套创新的两阶段训练方法。视频推理的长期瓶颈在于数据——现有数据集多仅提供时间戳或空间框的单维度标注,缺乏时空耦合的思维链数据。为此,团队构建了STGR-CoT-30k(用于监督微调)与STGR-RL-36k(用于强化学习)两部分语料,涵盖时序定位、空间定位、时空定位与视频问答四类任务。数据构建流程严谨:首先利用Gemini 2.5 Pro生成初始的问题-答案对及推理链;随后通过面积过滤与Qwen2.5-VL-7B的类别验证来清洗低质量检测框;最后进行严格的一致性检查,确保问题、答案、时间戳、物体框与推理链一一对应。这套高质量语料为模型学习“如何思考”奠定了坚实基础。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

然而,仅靠监督微调(SFT)难以让模型真正掌握主动发现并引用视觉证据的能力。团队发现,SFT阶段模型更多是在模仿标注格式,而非内化逻辑关联。因此,Open-o3 Video引入了以强化学习为核心的双阶段训练机制。第一阶段为“冷启动预训练”,模型通过STGR-CoT-30k学习基础的推理格式与输出规范,相当于“教模型说话”。第二阶段则采用基于GSPO(一种序列优化方法)的强化学习,让模型在开放视频场景中生成完整推理链,并通过多维度奖励函数进行自我校正。该奖励函数精心设计为三部分:r_acc评估答案准确性;r_thk衡量推理链的合理性与对视觉证据的利用率(如计算时序IoU与空间IoU);r_fmt检查输出格式规范性。这种设计确保模型不仅追求答案正确,更优化其思考过程本身。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

训练中的关键挑战在于时空奖励的耦合优化。空间奖励(如边界框IoU)高度依赖于时间预测的准确性——若时间预测错误,即使空间框正确也无法与真值对应。团队通过动态调整时序约束的策略平衡了训练稳定性与精度:初期使用宽松约束避免奖励稀疏,后期逐步收紧以提升对齐精度。这一创新有效解决了多模态强化学习中常见的训练崩溃或奖励饱和问题。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

实验结果表明,Open-o3 Video在多个视频推理基准测试中实现了显著提升,关键指标最高提升达24.2%,性能超越GPT-4o、Gemini-2-Flash等主流闭源模型。其成功不仅体现在数值优势,更在于开创了视频推理的新范式——将OpenAI o3系列“Thinking with Images”的理念扩展至视频域,实现了时空双维度的可解释推理。这为AI在安防监控、内容审核、自动驾驶、交互式教育等需要精确时空理解的场景提供了可靠工具。未来,随着更多时空标注数据的开放与模型效率的优化,Open-o3 Video有望推动视频大模型从“黑箱猜测”迈向“白箱论证”的新时代。

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

总之,Open-o3 Video的发布标志着视频理解技术的一次重要跃迁。它通过创新的数据体系、训练框架与模型设计,首次让AI在视频推理中实现了“有迹可循”的思考,为多模态可解释人工智能的发展开辟了切实可行的路径。

— 图片补充 —

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考

Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8130

(0)
上一篇 2025年11月5日 上午11:59
下一篇 2025年11月5日 下午3:29

相关推荐

  • 视觉压缩革命:VIST框架如何让大语言模型像人类一样高效阅读长文本

    在人工智能领域,大语言模型(LLM)的上下文长度扩展与计算效率之间的矛盾日益凸显。NeurIPS 2025会议上,南京理工大学、中南大学、南京林业大学联合研究团队提出的VIST(Vision-centric Token Compression in LLM)框架,通过创新的视觉压缩机制,为大语言模型的长文本处理提供了突破性解决方案。这一技术路径与近期备受关注…

    2025年11月10日
    400
  • 解码新范式:北大团队提出Language Ranker框架,用推荐系统思维重塑LLM生成过程

    在大语言模型(LLM)的快速发展浪潮中,学术界和工业界的研究焦点普遍集中于模型架构优化、参数规模扩展、训练数据增强以及奖励信号强化等方向,这些努力本质上都是在优化模型的输出概率分布。然而,一个长期被相对忽视的关键环节是:如何将这些复杂的概率分布高效、精准地转化为高质量的文本生成结果——即解码(decoding)阶段。传统的解码策略,如贪婪解码、束搜索(Bea…

    2025年11月30日
    200
  • MedGPT登顶全球临床安全评测:AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境

    在基层医疗的日常实践中,医生面临着病种繁杂、节奏飞快的双重压力。从清晨到日暮,诊室内外的工作负荷持续攀升——查文献、请会诊等理想化操作往往被压缩,而慢病患者增多带来的随访任务更让医疗资源捉襟见肘。这种结构性困境,正是国家卫健委近期发布《促进和规范“人工智能+医疗卫生”应用发展的实施意见》试图破解的核心议题。政策将“人工智能+基层应用”列为八大重点方向之首,并…

    2025年11月17日
    200
  • 华为战略投资极佳视界:世界模型如何重塑自动驾驶与具身智能的数据范式

    近日,华为哈勃与华控基金联合完成对物理AI公司极佳视界的亿元级A1轮投资,这是该公司两个月内连续完成的第三轮融资。这一动作不仅标志着华为在自动驾驶和具身智能领域的战略深化,更揭示了世界模型作为下一代AI基础设施的核心价值。 极佳视界成立于2023年,是国内首家以“世界模型”为核心定位的纯血物理AI公司。在短短两年内,该公司已构建覆盖自动驾驶世界模型、具身基础…

    2025年11月12日
    300
  • AI视觉技术演进:从静态图像到动态场景的突破性进展

    人工智能视觉领域正经历着前所未有的变革,从传统的静态图像处理向复杂的动态场景理解迈进。这一演进不仅推动了技术边界的拓展,更在实际应用中展现出巨大潜力。 早期AI视觉系统主要聚焦于单一图像的分析与识别,通过深度学习算法实现对物体、人脸等元素的精准检测。这些技术为安防监控、医疗影像诊断等领域提供了基础支撑,但面对连续视频流和多帧序列时仍存在局限性。 随着算力提升…

    2天前
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注