DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。

你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹?

当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍需隐式推断三维结构,本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合,无法充分捕捉场景的底层几何特征。

鉴于上述挑战,来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl 。该研究针对现有方法在场景理解与几何感知方面的不足,创新性地设计了一个「双分支扩散架构」,能够同步生成与镜头运动一致的 RGB 与深度序列。进一步地,为实现 RGB 与深度两种模态的高效协同,DualCamCtrl 提出了语义引导互对齐机制(Semantic Guided Mutual Alignment),该机制以语义信息为指导,在双向的交互中实现了更好的模态融合。

这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模,从而生成更严格遵循指定相机轨迹的视频。大量实验表明,DualCamCtrl 在相机运动一致性方面显著优于现有方法,相机运动误差降低超过 40%。

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%
  • 论文标题: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 项目主页: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 论文链接: https://www.arxiv.org/abs/2511.23127
  • Github 仓库: https://github.com/EnVision-Research/DualCamCtrl
  • Huggingface 模型: https://huggingface.co/FayeHongfeiZhang/DualCamCtrl

双分支几何感知扩散模型

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

总体而言,DualCamCtrl 巧妙地采用了 双分支视频扩散框架(Dual Branch Video Diffusion Framework) ,其中一条分支负责生成 RGB 表示,另一条分支负责生成深度表示,两种模态通过提出的 SIGMA 机制进行融合。

该设计使得模型能够从单张输入图像及其对应深度图中,同步推断出视频级别的 RGB 与深度隐空间表征(Latent Representation),不仅最大限度降低了模态间的相互干扰,更使深度信息得以贯穿整个视频生成过程,实现连贯的几何引导。

SIGMA 机制以及双阶段训练

在多模态可控视频生成任务中,训练与融合策略是关键。DualCamCtrl 的核心设计正是基于这一认识,包含两部分:一是提出 语义引导互对齐(SIGMA)融合机制 ,促进 RGB 与深度模态在生成过程中的有效协同;二是采用分阶段训练策略 ——首阶段学习解耦的多模态表征,次阶段专注跨模态融合建模。

该设计使模型在复杂相机运动下,能同时保持外观连贯与三维几何准确,实现几何感知的可控生成。

语义引导互对齐机制

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

图3. SIGMA融合策略的动机与优势对比示意图。

基于双分支框架,RGB 分支与深度分支分别生成对应的视频序列和对应深度序列。尽管两者输入相同,但它们独立演化易导致输出不一致,因此需要有效的融合与对齐策略(图 3.a)。

然而该团队发现:单向对齐(One-Way Alignment)易损失语义一致性,几何引导对齐(Geometry-Guided Alignment)则过度强调几何表征而破坏了运动的一致性。为此,该团队提出了 语义引导互对齐机制(SIGMA)

SIGMA 采用语义引导的双向设计:浅层以 RGB 特征锚定语义结构,深层则引入深度反馈优化几何表达。该方法基于两个关键洞察(图 3.b、3.c):

  • 语义优先的重要性: 外观特征应在早期占主导地位以保持语义的稳定,而深度信号作为后期补充来优化几何结构。
  • 双向交互的重要性: 两分支相互反馈可避免单向对齐的失衡,实现更稳定的隐空间表征对齐。

分阶段训练策略

为实现 RGB 与深度模态稳健生成与有效协同的目标,DualCamCtrl 采用分阶段训练策略(Two-stage training),为每个阶段的学习设置不同侧重点:

  • 解耦训练阶段(Decoupled Stage): 核心目标是使 RGB 与深度分支分别专注学习外观与几何表征。为此,模型使用共享预训练权重初始化,并利用 state-of-the-art (SOTA) 视频深度估计模型 Video Depth Anything 生成的深度特征进行监督。此阶段禁止模态间交互,确保表征演化的独立性。
  • 融合训练阶段(Fusion Stage): 在两个分支具备基础能力后,核心目标转向实现外观与几何信息的互补增强。为此,模型引入零初始化的融合模块,逐步建立跨模态交互,并通过联合优化 RGB 与深度目标函数,实现多模态表征的对齐与协同。
DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

图2:两阶段训练的效果:单阶段模型因无法充分收敛(上图),导致其相机轨迹对齐效果欠佳(下图)。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。

实验结果

在定量和定性比较中,DualCamCtrl 在各项指标上均显著优于当前的 SOTA 方法。

定性分析:

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

在相同输入条件下,DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。

定量分析:

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

Image to Video 定量分析结果

DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

Text to Video 定量分析结果

总结

DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型,实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制(SIGMA)与两阶段训练策略,该模型有效同步了 RGB 序列与深度序列的生成和融合,显著增强了模型的几何感知能力。实验表明,该方法在相机一致性误差上比先前方法降低超过 40%,为相机控制视频生成提供了新的技术思路,并有望推动其他可控视频生成任务的发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14171

(0)
上一篇 2025年12月21日 下午12:19
下一篇 2025年12月21日 下午12:19

相关推荐

  • 告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家

    关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…

    2026年3月17日
    37000
  • MiniMax如何借助阿里云重塑Agent底座,撑起智能体时代的系统变革

    2026年初,随着OpenClaw的爆火,AI领域正式步入了Harness时代。在这场技术浪潮中,MiniMax凭借敏锐的技术洞察,成为变革的核心参与者之一。 其近期相继推出的云端AI助手MaxClaw以及全新发布的MaxHermes便是例证。这两款应用分别基于OpenClaw架构与近期备受关注的Hermes Agent构建,旨在消除本地部署服务器与配置AP…

    2026年4月16日
    42900
  • Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

    周四晚间,Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。 Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升,尤其是在处理最复杂的任务方面。根据用户反馈,现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务,精准执行指令,并在返回结果前设…

    2026年4月17日
    60700
  • Python仪表盘开发利器:7款高效工具助你轻松构建数据可视化应用

    构建仪表盘是数据驱动应用开发中的常见需求,无论是用于系统监控、业务分析还是成果展示。然而,选择合适的工具至关重要——一些工具性能不佳,一些将简单的可视化复杂化,另一些则因模板僵化而限制了灵活性。 幸运的是,Python 生态提供了多样化的选择,无论你倾向于通过代码实现精细控制,还是希望通过低代码方式快速搭建,都能找到合适的方案。 1. Dash Dash 是…

    2025年12月7日
    47500
  • 哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%

    作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…

    2026年3月15日
    59100