SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

近日,来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」,已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

  • 论文地址:https://arxiv.org/pdf/2605.00658
  • 代码仓库:https://github.com/houyuanchen111/UniVidX
  • 项目主页:https://huggingface.co/houyuanchen/UniVidX

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 1:这张图系统性地展示了 UniVidX 在多模态视频生成中的统一建模能力,覆盖了 Text→X、X→X 以及 Text&X→X 三大核心范式。图的上半部分是 UniVid-Intrinsic,支持逆向渲染、重打光、Intrinsic 生成等任务;下半部分则是 UniVid-Alpha,专注于 RGBA 生成、视频抠图和视频 inpainting 等任务。结果表明,单一框架即可胜任原本需要多个独立模型才能完成的复杂视频图形任务。

这项研究提出了一个面向多模态视频生成与理解的统一框架 UniVidX,在多项视频图形任务上达到了当前最优性能或实现了性能突破,标志着视频扩散模型在通用化方向上迈出了重要一步。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 2:该图展示了 UniVidX 的核心结构,具体包括随机条件掩码机制、解耦门控 LoRA 以及跨模态自注意力。在训练过程中,不同模态会被动态地划分为条件或目标,从而赋予模型全向生成能力。通过共享注意力机制与模块化参数适配,模型在保证一致性的同时,有效避免了不同模态之间的相互干扰。

长期以来,视频图形学与视频生成领域的发展呈现出明显的任务割裂现象。不同的问题往往需要依赖独立的模型来建模,例如视频逆向渲染、视频重打光、视频抠图、视频 inpainting 以及文生视频等任务,通常都需要分别训练专用的模型来完成。

这种以固定输入-输出映射为核心的建模方式,不仅限制了模型对复杂真实场景的适应能力,也阻碍了跨任务知识的共享与迁移。在实际应用中,视频内容往往涉及多种模态与多种操作的组合,传统方法很难提供一种统一且高效的解决方案。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 3:该图对比了 UniVid-Intrinsic 与现有方法在 Intrinsic 生成任务中的表现。相较于基线方法存在的模态错位与细节缺失问题,UniVidX 在 RGB、反照率与法线之间保持了更高的一致性。结果表明,该方法能够稳定地生成具有物理一致性的多模态视频序列。

针对这一问题,UniVidX 从建模范式上进行了系统性的重构。该框架的核心思想,是将不同的视频图形任务统一为多模态条件生成问题,使得任意模态既可以作为输入条件,也可以作为生成目标,从而实现“任意模态到任意模态”的统一建模能力。在这个统一的空间里,RGB 视频、法线、反照率、光照、Alpha 通道以及前景背景等信息不再彼此孤立,而是通过共享的生成机制进行协同建模。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 4:该图展示了 UniVidX 在 Intrinsic 生成和 RGBA 生成任务中的定量评测结果。无论是在用户评分还是时间一致性指标上,UniVidX 的表现均优于现有方法。值得关注的是,该方法能够实现多层分解生成,充分体现了其更强的统一建模能力。

为了实现这一统一能力,UniVidX 在模型结构与训练机制上提出了一系列关键设计。

首先,通过随机条件掩码机制,模型在训练过程中会不断改变输入与输出模态的划分方式,从而学习全方向的生成关系,而非固定的映射模式。这一机制赋予了模型更强的泛化能力,使其能够适应多样化的任务需求。

其次,通过解耦门控 LoRA,模型为不同的模态分配了独立的参数空间,并在对应模态作为生成目标时动态激活,从而有效避免了不同模态之间的参数干扰,同时保留了预训练扩散模型的原始生成能力。

此外,跨模态自注意力机制通过在不同模态之间共享信息,实现了几何、光照与语义层面的统一约束,显著提升了生成结果的一致性与稳定性。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 5:该表系统性地比较了 UniVid-Intrinsic 与多种代表性方法在反照率、光照、法线及正向渲染任务上的性能。UniVidX 在 PSNR、SSIM 及 LPIPS 等指标上整体领先。结果验证了统一框架在多任务场景中的综合优势。

在具体实现上,研究团队基于该框架构建了两个代表性模型,用于覆盖不同类型的视频图形任务。UniVid-Intrinsic 专注于 Intrinsic 属性,能够统一处理 RGB、反照率、辐照度和法线等模态,支持文本到 Intrinsic 生成、视频逆向渲染、正向渲染以及视频重打光等任务。

与此同时,UniVid-Alpha 则面向视频层级分解与合成,统一建模混合视频、前景、背景与 Alpha 通道,支持视频抠图、视频 inpainting 以及前景与背景替换等关键应用。这两个模型在统一框架下共同支持 Text→X、X→X 以及 Text&X→X 三类生成范式,总计覆盖十五类典型视频任务,充分验证了该方法的广泛适用性。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 6:该图展示了不同方法在逆向渲染和正向渲染任务中的视觉效果。与其他方法存在的伪影与细节丢失问题相比,UniVidX 的生成结果更接近真实分布。尤其在光照一致性与几何细节方面,表现出了更高的稳定性与精度。

值得关注的是,UniVidX 在数据效率方面展现出了显著优势。实验结果表明,即使在训练数据规模不足千条视频的情况下,模型仍然能够在多个任务上达到或超越现有的最优方法,并在真实场景与分布外数据上保持良好的泛化能力。这一现象表明,该方法并非依赖大规模任务数据进行学习,而是通过合理的结构设计与训练策略,有效地激活并利用了预训练视频扩散模型中蕴含的动态世界先验。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 7:该表展示了 UniVidX 在真实世界 MAW 数据集上的反照率估计性能。尽管仅在合成数据上训练,模型仍然取得了最佳的强度误差指标,并在色度误差上保持了竞争力。结果表明该方法具备良好的跨域泛化能力。

在系统评测方面,UniVidX 在多个关键任务中取得了领先表现。在视频逆向渲染与正向渲染任务中,模型在 PSNR、SSIM 及感知指标上整体优于现有的扩散模型方法;在法线估计任务中,在显著减少训练数据规模的情况下,仍然达到了接近甚至优于专用模型的性能;在视频抠图任务中,作为无需额外辅助信息的模型,其结果超过了多种依赖 mask 输入的方法。同时,在文本驱动生成任务中,模型在视觉质量、语义一致性以及跨模态一致性方面均获得了更高评价,并且在时间一致性方面显著优于图像级方法。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 8:该表对比了 UniVidX 与多种专用法线估计方法的性能。尽管训练数据规模显著更小,UniVidX 仍然达到了接近甚至优于部分专用模型的精度。这一结果充分体现了利用扩散先验进行统一建模所带来的高数据效率优势。

从更高层面来看,UniVidX 的价值不仅体现在单项任务性能的提升上,更体现在其系统能力的整合与扩展上。由于所有模态共享统一的生成框架,不同任务可以在同一个模型内部灵活组合,从而支持更加复杂的视频编辑与内容生成流程。

例如,可以先进行视频逆向渲染以获取物理属性,再基于文本进行重打光或材质编辑;或者通过 Alpha 分解实现视频 inpainting 与背景替换。这种多模态可组合的能力,使得 UniVidX 从一个单一模型扩展为一个面向复杂应用的统一视频图形引擎。

SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破

图 9:该表展示了 UniVid-Alpha 在视频抠图任务上的定量表现。作为一种无需辅助 mask 输入的方法,UniVidX 在 MAD、MSE 等关键指标上优于多种现有方法。结果说明,扩散模型先验能够有效替代传统的显式分割信号。

UniVidX 的提出,标志着视频扩散模型正从单一任务工具,向通用视频图形基础模型演进。这项工作验证了一个关键方向:在拥有强大预训练先验的前提下,借助合理的多模态建模机制,能够将传统图形学中的分解、估计、生成与编辑任务,统一整合至同一框架内。这一进展不仅为视频生成与理解开辟了新的技术路径,也为自动驾驶仿真、具身智能、影视制作等应用场景,奠定了坚实的实践基础。

作者介绍

本文第一作者为南京大学本科生陈厚源,他即将加入香港科技大学 MMLab 开展研究工作。通讯作者为香港科技大学 MMLab 的饶安逸老师。值得一提的是,斯坦福大学博士生 Lvmin Zhang 也是本文作者之一,他曾与饶安逸老师合作完成 ControlNet、IC-Light 等代表性成果,其中 ControlNet 曾荣获 ICCV Marr Prize。此外,清华大学的赵昊老师也为该工作提供了重要指导,共同推动了项目的顺利完成。

© THE END


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34210

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍

    GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。 根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。 值得注意的是,排名第 12 位的是于一月底…

    2026年3月18日
    78700
  • AI图像检测泛化难题破解:腾讯优图提出双重数据对齐方法,从源头消除偏差特征

    在AIGC技术迅猛发展的浪潮中,仅凭一行简单的提示词就能生成高度逼真的图像内容,这无疑标志着人工智能生成能力的重大突破。然而,技术进步往往伴随着新的挑战——虚假新闻的泛滥、身份欺诈的频发、版权侵犯的争议等问题日益凸显,使得AI生成图像检测技术成为维护数字内容安全的关键防线。当前检测技术面临的核心困境在于泛化能力不足:许多检测模型在标准基准测试中表现优异,一旦…

    2025年11月30日
    39200
  • Nano Banana Pro深度解析:时空重构AI的突破与局限

    近期,Nano Banana Pro凭借其“时空重现”能力引发广泛关注。这款AI模型只需输入坐标和可选时间参数,就能生成对应时空的拟真影像,从技术角度看,这标志着多模态AI在时空理解与生成领域迈出了重要一步。 从技术架构分析,Nano Banana Pro的核心突破在于实现了从“推理”到“创造”的能力跃迁。早期版本已能通过图像反推拍摄坐标,展现出色的地理空间…

    2025年11月26日
    36900
  • OpenAI内部揭秘:95%工程师用Codex,AI将吃掉所有脚手架,B2B SaaS黄金时代来临

    “我们可能真的会进入一个B2B SaaS的黄金时代!”“接近100%的代码最初都是由AI生成的。”“我们活在‘硅谷泡泡’里。” 春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,这给了Sherwin一个极其独特且宏观…

    2026年2月19日
    66900
  • 硅谷CTO集体“降级”加入Anthropic:理想主义还是权力版图巨变?

    在硅谷,一场看似“反常”的人才迁徙正悄然上演。 事情源于博主 Henry Shi 在 X 平台上的一则帖子。他观察到科技界正出现一种奇特现象:“一些曾掌管数十亿美元公司业务的 CTO,纷纷离职,转而加入 Anthropic,甘愿成为一名个人贡献者(IC,Individual Contributor)。” 这个帖子确实引人深思:这些技术大牛为何集体从明星公司“…

    AI产业动态 2026年5月4日
    12400