DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。

你的生成模型真的「懂几何」吗?

当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍需隐式推断三维结构,本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合,无法充分捕捉场景的底层几何特征。

针对上述挑战,来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl。该研究针对现有方法在场景理解与几何感知方面的不足,创新性地设计了一个「双分支扩散架构」,能够同步生成与镜头运动一致的 RGB 与深度序列。为实现 RGB 与深度两种模态的高效协同,DualCamCtrl 提出了语义引导互对齐机制(Semantic Guided Mutual Alignment),该机制以语义信息为指导,在双向交互中实现了更好的模态融合。

这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模,从而生成更严格遵循指定相机轨迹的视频。大量实验表明,DualCamCtrl 在相机运动一致性方面显著优于现有方法,相机运动误差降低超过 40%。

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%
  • 论文标题: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 项目主页: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 论文链接: https://www.arxiv.org/abs/2511.23127
  • Github 仓库: https://github.com/EnVision-Research/DualCamCtrl
  • Huggingface 模型: https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

双分支几何感知扩散模型

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

总体而言,DualCamCtrl 采用了 双分支视频扩散框架(Dual Branch Video Diffusion Framework),其中一条分支负责生成 RGB 表示,另一条分支负责生成深度表示,两种模态通过提出的 SIGMA 机制进行融合。

该设计使得模型能够从单张输入图像及其对应深度图中,同步推断出视频级别的 RGB 与深度隐空间表征(Latent Representation),不仅最大限度降低了模态间的相互干扰,更使深度信息得以贯穿整个视频生成过程,实现连贯的几何引导。

SIGMA 机制以及双阶段训练

在多模态可控视频生成任务中,训练与融合策略是关键。DualCamCtrl 的核心设计包含两部分:一是提出 语义引导互对齐(SIGMA)融合机制,促进 RGB 与深度模态在生成过程中的有效协同;二是采用分阶段训练策略——首阶段学习解耦的多模态表征,次阶段专注跨模态融合建模。

该设计使模型在复杂相机运动下,能同时保持外观连贯与三维几何准确,实现几何感知的可控生成。

语义引导互对齐机制

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

图3. SIGMA融合策略的动机与优势对比示意图。

基于双分支框架,RGB 分支与深度分支分别生成对应的视频序列和深度序列。尽管两者输入相同,但它们独立演化易导致输出不一致,因此需要有效的融合与对齐策略(图 3.a)。

然而该团队发现:单向对齐(One-Way Alignment)易损失语义一致性,几何引导对齐(Geometry-Guided Alignment)则过度强调几何表征而破坏了运动的一致性。为此,该团队提出了 语义引导互对齐机制(SIGMA)

SIGMA 采用语义引导的双向设计:浅层以 RGB 特征锚定语义结构,深层则引入深度反馈优化几何表达。该方法基于两个关键洞察(图 3.b、3.c):

  • 语义优先的重要性: 外观特征应在早期占主导地位以保持语义的稳定,而深度信号作为后期补充来优化几何结构。
  • 双向交互的重要性: 两分支相互反馈可避免单向对齐的失衡,实现更稳定的隐空间表征对齐。

分阶段训练策略

为实现 RGB 与深度模态稳健生成与有效协同的目标,DualCamCtrl 采用分阶段训练策略(Two-stage training),为每个阶段的学习设置不同侧重点:

  • 解耦训练阶段(Decoupled Stage): 核心目标是使 RGB 与深度分支分别专注学习外观与几何表征。为此,模型使用共享预训练权重初始化,并利用当前先进的视频深度估计模型 Video Depth Anything 生成的深度特征进行监督。此阶段禁止模态间交互,确保表征演化的独立性。
  • 融合训练阶段(Fusion Stage): 在两个分支具备基础能力后,核心目标转向实现外观与几何信息的互补增强。为此,模型引入零初始化的融合模块,逐步建立跨模态交互,并通过联合优化 RGB 与深度目标函数,实现多模态表征的对齐与协同。
DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

图2:两阶段训练的效果:单阶段模型因无法充分收敛(上图),导致其相机轨迹对齐效果欠佳(下图)。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。

实验结果

在定量和定性比较中,DualCamCtrl 在各项指标上均显著优于当前的先进方法。

定性分析:

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

在相同输入条件下,DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。

定量分析:

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

Image to Video 定量分析结果

DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

Text to Video 定量分析结果

总结

DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型,实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制(SIGMA)与两阶段训练策略,该模型有效同步了 RGB 序列与深度序列的生成和融合,显著增强了模型的几何感知能力。实验表明,该方法在相机一致性误差上比先前方法降低超过 40%,为相机控制视频生成提供了新的技术思路,并有望推动其他可控视频生成任务的发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14293

(0)
上一篇 2025年12月21日 下午12:19
下一篇 2025年12月21日 下午12:19

相关推荐

  • Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案

    如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…

    2025年12月17日
    6900
  • Python仪表盘开发利器:7款高效工具助你轻松构建数据可视化应用

    构建仪表盘是数据驱动应用开发中的常见需求,无论是用于系统监控、业务分析还是成果展示。然而,选择合适的工具至关重要——一些工具性能不佳,一些将简单的可视化复杂化,另一些则因模板僵化而限制了灵活性。 幸运的是,Python 生态提供了多样化的选择,无论你倾向于通过代码实现精细控制,还是希望通过低代码方式快速搭建,都能找到合适的方案。 1. Dash Dash 是…

    2025年12月7日
    8400
  • OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线

    “ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…

    2026年1月23日
    6500
  • 周末实战:5个能放进作品集的Agentic AI项目,助你求职脱颖而出

    人们常把“Agentic AI”描绘成只有大型实验室才能驾驭的高深技术。事实并非如此。 你完全可以在几天内,构建出真正能放进作品集的智能体项目。这些项目能解决实际问题,从而在求职时为你加分,而不是只会运行花哨提示词的玩具。 这里有五个你马上就可以动手实践的项目,即使你只有一台在卧室里、电量只剩一半的笔记本电脑。 我们将通过简单的示例逐一讲解,让你看清各个组件…

    2025年12月8日
    8000
  • DeepSeek OCR:颠覆传统,用视觉压缩破解AI扩展的“十亿美元级”文档处理难题

    Part I: 文本的“隐形重量” 我们通常认为文本是“轻”的:易于存储、传输和计算。但在大语言模型时代,文本变得非常“重”。 处理一张发票的PDF扫描件,就可能消耗1,000至5,000个tokens。将这个数量级乘以企业日志、法律合同、监管文件和数字化档案,总token量将变得极其庞大——其中大部分是冗余、昂贵且处理缓慢的。虽然OpenAI的GPT-4-…

    2025年10月31日
    7300