UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

在人工智能领域,视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期,由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架,通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态,构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性,更实现了零样本泛化能力,为视觉大模型的发展提供了全新范式。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

回顾大语言模型(LLMs)的发展,GPT、Claude等模型之所以具备强大的泛化与推理能力,关键在于统一训练了自然语言、代码、数学表达式等多种文本子模态,促进了跨领域知识迁移。类似地,视觉领域长期依赖单一的RGB视频数据训练,如同仅用纯文本训练语言模型,限制了模型对三维几何、运动规律等物理属性的全面认知。UnityVideo的核心洞察正在于此:当模型同时学习互补的视觉模态时,它能更深刻地“理解”世界运作机制,而非简单拟合数据分布。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

实验表明,统一多模态训练能加速模型收敛并提升最终性能。不同模态提供独特的监督信号:实例分割区分物体类别,DensePose解析人体结构,骨架信息编码精细运动,深度图揭示三维几何,光流捕捉像素级运动。这些信号相互促进,使模型在训练中内化物理规律。例如,仅用单人数据训练的模型可泛化至多人场景;基于人体骨架的学习能迁移到动物骨架估计;特定物体的深度估计能力可扩展至未见物体。这种零样本泛化彰显了模型对抽象概念的把握,其背后是跨模态表征的共享与复用。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo的技术创新体现在三方面。首先,它通过动态任务路由统一了三种训练范式:条件生成(从辅助模态生成RGB视频)、模态估计(从RGB视频推断辅助模态)、联合生成(从文本同步生成视频与辅助模态)。关键突破是动态噪声调度策略——每个训练迭代随机选择模式,并对相应token施加差异化噪声,避免了阶段式训练的灾难性遗忘。研究者还按任务难度设置采样概率(p_cond < p_est < p_joint),确保学习进度平衡。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

其次,模态切换器在架构层面区分模态信号。上下文学习器为不同模态注入文本提示(如“depth map”),使模型语义化理解当前模态,从而支持泛化(如从“two persons”分割迁移到“two objects”)。模态自适应切换器则为每种模态学习独立的调制参数,通过可学习嵌入调整DiT块中的AdaLN-Zero参数,实现即插即用的推理切换。

最后,渐进式课程学习策略优化训练流程:第一阶段在单人场景数据上训练像素对齐模态(光流、深度、DensePose),建立空间对应基础;第二阶段引入所有模态及多样化场景(包括多人与通用场景),使模型掌握全部五种模态,并支撑未见模态组合的零样本推理。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

为支撑统一训练,团队构建了OpenUni数据集,涵盖130万个多模态视频样本,包括37万单人场景、9.7万双人场景,以及来自Koala36M和OpenS2V的片段。训练中,每个batch被均衡划分为四组,确保所有模态与数据源的均匀采样,防止过拟合。同时,UniBench评估基准提供3万个样本(含200个Unreal Engine渲染的高质量样本,附带真实深度与光流),为全面评估奠定基础。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

实验结果证实了UnityVideo的全方位优势。在文本生成视频任务中,其背景一致性达97.44%,美学质量64.12%,均领先同类模型;在可控生成中,动态程度指标高达64.42%,凸显运动建模能力;在模态估计任务中,深度预测与分割精度显著提升。这些成果不仅验证了多模态统一训练的有效性,更揭示了视觉模型向“物理世界理解”演进的可能路径。未来,随着模态扩展与数据集丰富,此类框架或将在自动驾驶、虚拟现实等领域发挥更大价值。

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

— 图片补充 —

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4796

(0)
上一篇 2025年12月14日 下午2:46
下一篇 2025年12月15日 上午7:55

相关推荐

  • AutoBio:VLA模型在生物实验室的“图灵测试”——ICLR 2026新基准揭示科研自动化挑战

    现有视觉-语言-动作模型的研究和基准测试多集中于家庭场景,缺乏对专业科学场景的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂等特点,是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景。 近期,来自香港大学MMLAB与上海交通大学的研究团队提出了AutoBio,一个面向数字化生物实验室的机器人仿真系统与基准测试平台。该工作已被ICL…

    2026年2月20日
    35400
  • 信仰与算法的终极博弈:前谷歌研究员如何向梵蒂冈预警AGI末日危机

    在人工智能技术飞速发展的今天,关于通用人工智能(AGI)可能带来的生存风险讨论已从硅谷实验室延伸至全球最古老的权力中心——梵蒂冈。前谷歌研究员约翰-克拉克·莱文(John-Clark Levin)正领导一场独特的游说行动,试图让天主教廷正视AGI可能引发的“代码末日”,这场信仰与算法之间的博弈,或将重塑人类在智能时代的命运轨迹。 莱文并非普通的科技从业者。作…

    2025年12月2日
    30400
  • 信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境

    在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…

    2025年12月19日
    40000
  • 深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜

    深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜 太突然了! 深夜,通义千问(Qwen)负责人林俊旸突然发布推文,宣布自己将离开Qwen团队。 截至目前,林俊旸尚未透露自己的去向和接任者,外界尚不清楚他是否也会离开阿里巴巴。 据内部知情人士透露,目前尚无直接接替林俊旸的人选,原因是「事发比较突然」。该知情人士表示:「主要感觉就是他的一…

    2026年3月4日
    37500
  • AI大模型周报:阿里、腾讯、Anthropic等巨头密集发布,多模态与推理能力成焦点

    10月13日 【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型,它们显存占用更低,具备多模态理解与推理能力,支持长视频、长文档等超长上下文输入,并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。 10月14日 【闭源】 腾讯混元发…

    2025年10月20日
    33400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注