DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。

你的生成模型真的「懂几何」吗?

当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍需隐式推断三维结构,本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合,无法充分捕捉场景的底层几何特征。

针对上述挑战,来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl。该研究针对现有方法在场景理解与几何感知方面的不足,创新性地设计了一个「双分支扩散架构」,能够同步生成与镜头运动一致的 RGB 与深度序列。为实现 RGB 与深度两种模态的高效协同,DualCamCtrl 提出了语义引导互对齐机制(Semantic Guided Mutual Alignment),该机制以语义信息为指导,在双向交互中实现了更好的模态融合。

这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模,从而生成更严格遵循指定相机轨迹的视频。大量实验表明,DualCamCtrl 在相机运动一致性方面显著优于现有方法,相机运动误差降低超过 40%。

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%
  • 论文标题: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 项目主页: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 论文链接: https://www.arxiv.org/abs/2511.23127
  • Github 仓库: https://github.com/EnVision-Research/DualCamCtrl
  • Huggingface 模型: https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

双分支几何感知扩散模型

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

总体而言,DualCamCtrl 采用了 双分支视频扩散框架(Dual Branch Video Diffusion Framework),其中一条分支负责生成 RGB 表示,另一条分支负责生成深度表示,两种模态通过提出的 SIGMA 机制进行融合。

该设计使得模型能够从单张输入图像及其对应深度图中,同步推断出视频级别的 RGB 与深度隐空间表征(Latent Representation),不仅最大限度降低了模态间的相互干扰,更使深度信息得以贯穿整个视频生成过程,实现连贯的几何引导。

SIGMA 机制以及双阶段训练

在多模态可控视频生成任务中,训练与融合策略是关键。DualCamCtrl 的核心设计包含两部分:一是提出 语义引导互对齐(SIGMA)融合机制,促进 RGB 与深度模态在生成过程中的有效协同;二是采用分阶段训练策略——首阶段学习解耦的多模态表征,次阶段专注跨模态融合建模。

该设计使模型在复杂相机运动下,能同时保持外观连贯与三维几何准确,实现几何感知的可控生成。

语义引导互对齐机制

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

图3. SIGMA融合策略的动机与优势对比示意图。

基于双分支框架,RGB 分支与深度分支分别生成对应的视频序列和深度序列。尽管两者输入相同,但它们独立演化易导致输出不一致,因此需要有效的融合与对齐策略(图 3.a)。

然而该团队发现:单向对齐(One-Way Alignment)易损失语义一致性,几何引导对齐(Geometry-Guided Alignment)则过度强调几何表征而破坏了运动的一致性。为此,该团队提出了 语义引导互对齐机制(SIGMA)

SIGMA 采用语义引导的双向设计:浅层以 RGB 特征锚定语义结构,深层则引入深度反馈优化几何表达。该方法基于两个关键洞察(图 3.b、3.c):

  • 语义优先的重要性: 外观特征应在早期占主导地位以保持语义的稳定,而深度信号作为后期补充来优化几何结构。
  • 双向交互的重要性: 两分支相互反馈可避免单向对齐的失衡,实现更稳定的隐空间表征对齐。

分阶段训练策略

为实现 RGB 与深度模态稳健生成与有效协同的目标,DualCamCtrl 采用分阶段训练策略(Two-stage training),为每个阶段的学习设置不同侧重点:

  • 解耦训练阶段(Decoupled Stage): 核心目标是使 RGB 与深度分支分别专注学习外观与几何表征。为此,模型使用共享预训练权重初始化,并利用当前先进的视频深度估计模型 Video Depth Anything 生成的深度特征进行监督。此阶段禁止模态间交互,确保表征演化的独立性。
  • 融合训练阶段(Fusion Stage): 在两个分支具备基础能力后,核心目标转向实现外观与几何信息的互补增强。为此,模型引入零初始化的融合模块,逐步建立跨模态交互,并通过联合优化 RGB 与深度目标函数,实现多模态表征的对齐与协同。
DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

图2:两阶段训练的效果:单阶段模型因无法充分收敛(上图),导致其相机轨迹对齐效果欠佳(下图)。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。

实验结果

在定量和定性比较中,DualCamCtrl 在各项指标上均显著优于当前的先进方法。

定性分析:

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

在相同输入条件下,DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。

定量分析:

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

Image to Video 定量分析结果

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

Text to Video 定量分析结果

总结

DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型,实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制(SIGMA)与两阶段训练策略,该模型有效同步了 RGB 序列与深度序列的生成和融合,显著增强了模型的几何感知能力。实验表明,该方法在相机一致性误差上比先前方法降低超过 40%,为相机控制视频生成提供了新的技术思路,并有望推动其他可控视频生成任务的发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14293

(0)
上一篇 2025年12月21日 下午12:19
下一篇 2025年12月21日 下午12:19

相关推荐

  • 淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

    淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上) 一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。 这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推…

    2025年12月23日
    34800
  • 企业推进大模型落地的关键工程与核心指标

    企业推进大模型落地,需统筹五大关键工程:算力工程是基础设施,关注规模、效率与服务;应用工程是价值门户,衡量业务覆盖与成效;模型工程是技术核心,驱动算法效能与迭代;知识工程是企业智库,负责知识的沉淀与复用;数据工程是循环血脉,确保数据的贯通与消费。五者协同,方能实现真正的业务智能化。

    2025年10月2日
    53800
  • LM Studio推出LM Link:让本地大模型远程调用成为现实

    当你的笔记本电脑在移动中难以运行大型AI模型时,家中高性能工作站的算力却处于闲置状态。LM Studio最新推出的“LM Link”功能,旨在改变这一现状。 通过与Tailscale合作,LM Link构建了一个专为AI模型设计的私有安全网络。它允许用户将安装有LM Studio的不同设备相互连接,从而实现远程调用模型,体验与本地运行无异。 技术核心:基于M…

    2026年2月26日
    34800
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    26300
  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    23800