视频推理

  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    2026年1月29日
    24200
  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    21400