扩散模型
-
DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%
本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍…
-
浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能
随着扩散模型(Diffusion Models)的迭代演进,图像生成技术已日趋成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一具有广泛用户场景的关键领域,现有方法仍面临核心瓶颈:如何同时实现对多个对象的精确空间布局控制(Layout Control)以及良好的身份特征保持(Identity Pres…
-
ContextGen:双重注意力机制突破多实例图像生成瓶颈,布局控制与身份保真实现协同优化
随着扩散模型在单图像生成领域的日益成熟,研究焦点正逐步转向更具挑战性的多实例图像生成(Multi-Instance Image Generation, MIG)任务。这一任务要求模型在生成包含多个主体的图像时,不仅能精确控制各实例的空间布局,还需保持每个主体与参考图像的高度身份一致性。然而,现有方法往往难以兼顾这两大核心需求:专注于布局控制的技术常忽略身份注…
-
颠覆认知:扩散模型表征对齐中,空间结构竟比全局语义更重要
在扩散模型的训练优化领域,表征对齐(REPA)技术自去年十月问世以来,一直被视为加速扩散Transformer训练的关键突破。该方法通过将预训练视觉编码器的表征蒸馏为中间扩散特征来指导生成式训练,显著提升了训练效率。然而,一个根本性问题长期悬而未决:对于生成任务而言,目标表征的哪个维度更为关键?是编码器捕获的全局语义信息(通常以ImageNet-1K分类准确…
-
FeRA:从频域第一性原理出发,实现扩散模型动态参数高效微调
在大模型时代,参数高效微调(PEFT)已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式。从LoRA到DoRA,社区不断探索如何用更少的参数实现更好的适配。然而,现有微调方法大多采用“静态”策略:无论模型处于去噪过程的哪个阶段,适配器的参数都是固定不变的。这种“一刀切”的方式忽略了扩散生成过程内在的时序物理规律,导致模…
-
LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作
近年来,基于扩散模型的视频生成技术取得了显著进展,大幅提升了视频编辑的真实感与可控性。然而,在文字驱动的视频对象移除与添加领域,依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象,还需同时维持背景连续性、时序一致性以及语义匹配,构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域,这种强依赖不仅抬高了使…
-
TCDiff++:突破群体舞蹈生成瓶颈,端到端模型实现虚拟群舞新高度
在元宇宙与数字人技术快速发展的今天,群体舞蹈生成已成为虚拟演唱会、数字人集体表演等场景的核心需求。然而,现有技术在多人生成、动作协调和长序列稳定性方面面临严峻挑战。近期,由南京理工大学、清华大学和南京大学联合研发的端到端模型TCDiff++,通过创新性的架构设计,成功突破了这些技术壁垒,为高质量、长时序的群体舞蹈自动生成提供了完整解决方案。 当前群体舞蹈生成…
-
Lumina-DiMOO:离散扩散架构重塑多模态统一模型,开启原生智能新纪元
上海人工智能实验室近期推出的Lumina-DiMOO,标志着多模态人工智能领域迎来了一次架构层面的根本性变革。这款基于离散扩散建模(Discrete Diffusion Modeling)的扩散语言模型,首次在同一框架内实现了文本→图像、图像→图像、图像→文本的全栈能力闭环,打破了传统多模态任务间的技术壁垒。 **论文信息** 论文标题:Lumina-DiM…
-
《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局
扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…
