阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

为什么“逐步思考”在视频推理中会失效?

在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。

来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简单套用文本领域的思维链方法,容易导致模型脱离视频内容进行“脑补”,从而产生更多事实幻觉。

为此,团队提出了一个核心洞见:模型“思考”的效果,取决于我们是否教会了它“如何思考”。 基于此,他们构建了一套完整的解决方案,包括一个高质量的视频推理数据集ReWatch,以及一个能够像人类一样“回看”视频进行证据链思考的SOTA模型ReWatch-R1。相关论文已被ICLR 2026接收。

高质量视频推理数据集:ReWatch

研究团队发现,现有训练数据存在三大痛点:视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容。为此,他们构建了包含1万个视频、17万问答对和13.5万条思维链的ReWatch数据集,其具备三大核心优势:

1. 高保真时序字幕: 采用分层字幕生成方法,为长视频生成带有精确时间戳的详细事件描述,为复杂推理提供坚实、可查证的事实基础。

2. 高难度视频问答: 通过“摘要vs精读”的对比生成策略和三层过滤机制,确保问题必须依赖视频中的细节才能解答,从根本上杜绝模型依靠猜测或常识蒙混过关。

3. 视频接地的思维链: 首创多智能体ReAct框架,模拟人类“回看、确认”的思考行为。通过“推理智能体”和“观察智能体”的协作,生成明确记录“去视频哪里看”以及“看到了什么”的推理轨迹,确保思维链的每一步都与视频内容紧密绑定。

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

整个数据集的构建包含三个阶段:分层字幕生成、高难度问答对生成、以及多智能体思维链合成,确保了数据的高质量与高难度。

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

让模型学会“如何思考”:ReWatch-R1

有了高质量的“教材”,如何教会模型学习?研究团队采用监督微调+强化学习的范式,并通过一个创新的奖励机制,让模型掌握思考的精髓。

训练方法的核心是 带过程奖励的强化学习。它不再仅仅奖励“答案是否正确”,而是直接监督和奖励模型的中间推理过程,从而有效抑制推理幻觉。

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

这一巧妙的“过程奖励”具体如何计算?

研究团队将推理过程拆解为:视频+问题 → 观察+推理 → 答案。奖励针对中间环节进行评估:

1. 观察奖励: 评估模型的“观察”是否真实。将模型生成的观察描述,与数据集中高保真的字幕进行比对。观察越符合视频事实,奖励越高。

2. 推理奖励: 评估模型的“推理动作”是否有效。将模型推理中产生的“观察”结果作为唯一信息源,检验其能否仅凭这些信息推导出正确答案。如果可以,说明其推理步骤是充分且高效的,将获得奖励。

通过这种方式,模型不仅学会了要得出正确答案,更学会了如何通过真实、有效的步骤进行思考,像一个侦探一样,基于证据链进行推理。

实验结果与关键洞察

1. 全面超越,达到SOTA性能

实验结果表明,ReWatch-R1在五个主流视频推理基准测试中,平均性能显著超越了所有同量级的开源模型,取得了SOTA成绩,证明了该方法论的有效性。

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

2. 关键发现:强化学习是释放“思考”潜力的钥匙

一个有趣的发现是:在监督微调阶段,“思考模式”的性能始终无法超越“直接回答”模式。这说明监督微调只能教会模型思考的“形式”,而无法领悟其“精髓”。

然而,经过强化学习阶段的训练后,“思考模式”的性能实现了惊人飞跃,最终大幅超越了“直接回答”模式,展现出最高的性能上限。这有力证明了,显式的、一步步的、有证据支撑的推理过程对于解决复杂视频任务至关重要,而强化学习是激发这种深度思考能力的关键。

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

总结

ReWatch-R1的工作为视频理解领域贡献了宝贵的思路与资源。它通过创新的“智能体合成数据”方法,解决了高质量视频推理数据稀缺的核心瓶颈;并通过“过程奖励”强化学习,成功教会了模型如何基于视频证据进行“深度思考”,而非空想。这项研究表明,让模型学会“如何思考”,是通往更高阶视频智能的关键一步。

论文标题:ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis
论文链接:https://arxiv.org/abs/2509.23652
项目主页:https://rewatch-r1.github.io
开源数据:https://www.modelscope.cn/datasets/zcccccz/ReWatch

阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19836

(0)
上一篇 2026年1月29日 下午3:58
下一篇 2026年1月29日 下午5:56

相关推荐

  • 黄仁勋街头力挺OpenAI:英伟达将投史上最大融资,千亿美元合作未停滞

    闻乐 发自 凹非寺 “完全胡说八道!” 都在传英伟达和OpenAI的千亿美元世纪大单谈崩了、黄仁勋私下吐槽奥特曼无能、烧钱无度,不少人猜测这对AI圈的黄金搭档要闹掰。 结果才过不到24小时,黄仁勋就直接强势回应:No Sense! 老黄街头接受采访时不仅打破传闻,还大方表态:我非常欣赏奥特曼。 总之,他的意思是英伟达肯定要投OpenAI最新一轮融资,而且这笔…

    2026年2月1日
    25700
  • 从监狱到AI独角兽:Firmus如何用690亿债务融资打造1.6GW绿色算力工厂

    澳洲AI基础设施独角兽狂吸金,要建出1.6GW的数据“巨兽”。 他蹲过大牢,做过加密货币,现在转投AI基础设施,一次直接融资超100亿美元。这一句话,浓缩了澳洲AI基础设施独角兽Firmus联合创始人兼首席执行官Oliver Curtis的十年。 智东西2月14日报道,2月9日,Firmus宣布获得了约100亿美元(约合人民币690亿元) 的债务融资,融资由…

    2026年2月14日
    7800
  • 英伟达CES 2026技术盛宴:Rubin架构、开源AI与物理智能革命

    2026,黄仁勋开年第一讲来了! 5个小时前,英伟达创始人黄仁勋现身拉斯维加斯的CES 2026现场。3000名观众坐满礼堂,庭院里还有2000人在观看;全球数百万人通过直播欣赏这场新年技术盛宴。 这是我们今年的第一场主题演讲,我们得先把“蜘蛛网”清理掉。 黄仁勋的演讲长达90分钟,用他自己的话说,今天要“塞进去”的内容大概有15公斤那么多。 他首先开门见山…

    2026年1月6日
    23400
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    18700
  • MiniMax M2.5全面评测:中文场景性能跃升,Agent能力暴涨10.6%,成本效率比显著优化

    MiniMax在春节假期前发布了MiniMax M2.5新版本。官方表示,该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 本次评测…

    2026年2月13日
    50900