UnityVideo：统一多模态训练范式，开启视频生成模型的“物理世界理解”新纪元

2025年12月14日下午2:58 • AI产业动态 • 阅读 76

在人工智能领域，视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期，由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架，通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态，构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性，更实现了零样本泛化能力，为视觉大模型的发展提供了全新范式。

回顾大语言模型（LLMs）的发展，GPT、Claude等模型之所以具备强大的泛化与推理能力，关键在于统一训练了自然语言、代码、数学表达式等多种文本子模态，促进了跨领域知识迁移。类似地，视觉领域长期依赖单一的RGB视频数据训练，如同仅用纯文本训练语言模型，限制了模型对三维几何、运动规律等物理属性的全面认知。UnityVideo的核心洞察正在于此：当模型同时学习互补的视觉模态时，它能更深刻地“理解”世界运作机制，而非简单拟合数据分布。

实验表明，统一多模态训练能加速模型收敛并提升最终性能。不同模态提供独特的监督信号：实例分割区分物体类别，DensePose解析人体结构，骨架信息编码精细运动，深度图揭示三维几何，光流捕捉像素级运动。这些信号相互促进，使模型在训练中内化物理规律。例如，仅用单人数据训练的模型可泛化至多人场景；基于人体骨架的学习能迁移到动物骨架估计；特定物体的深度估计能力可扩展至未见物体。这种零样本泛化彰显了模型对抽象概念的把握，其背后是跨模态表征的共享与复用。

UnityVideo的技术创新体现在三方面。首先，它通过动态任务路由统一了三种训练范式：条件生成（从辅助模态生成RGB视频）、模态估计（从RGB视频推断辅助模态）、联合生成（从文本同步生成视频与辅助模态）。关键突破是动态噪声调度策略——每个训练迭代随机选择模式，并对相应token施加差异化噪声，避免了阶段式训练的灾难性遗忘。研究者还按任务难度设置采样概率（p_cond < p_est < p_joint），确保学习进度平衡。

其次，模态切换器在架构层面区分模态信号。上下文学习器为不同模态注入文本提示（如“depth map”），使模型语义化理解当前模态，从而支持泛化（如从“two persons”分割迁移到“two objects”）。模态自适应切换器则为每种模态学习独立的调制参数，通过可学习嵌入调整DiT块中的AdaLN-Zero参数，实现即插即用的推理切换。

最后，渐进式课程学习策略优化训练流程：第一阶段在单人场景数据上训练像素对齐模态（光流、深度、DensePose），建立空间对应基础；第二阶段引入所有模态及多样化场景（包括多人与通用场景），使模型掌握全部五种模态，并支撑未见模态组合的零样本推理。

为支撑统一训练，团队构建了OpenUni数据集，涵盖130万个多模态视频样本，包括37万单人场景、9.7万双人场景，以及来自Koala36M和OpenS2V的片段。训练中，每个batch被均衡划分为四组，确保所有模态与数据源的均匀采样，防止过拟合。同时，UniBench评估基准提供3万个样本（含200个Unreal Engine渲染的高质量样本，附带真实深度与光流），为全面评估奠定基础。

实验结果证实了UnityVideo的全方位优势。在文本生成视频任务中，其背景一致性达97.44%，美学质量64.12%，均领先同类模型；在可控生成中，动态程度指标高达64.42%，凸显运动建模能力；在模态估计任务中，深度预测与分割精度显著提升。这些成果不仅验证了多模态统一训练的有效性，更揭示了视觉模型向“物理世界理解”演进的可能路径。未来，随着模态扩展与数据集丰富，此类框架或将在自动驾驶、虚拟现实等领域发挥更大价值。