扩散模型

  • LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

    近年来,基于扩散模型的视频生成技术取得了显著进展,大幅提升了视频编辑的真实感与可控性。然而,在文字驱动的视频对象移除与添加领域,依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象,还需同时维持背景连续性、时序一致性以及语义匹配,构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域,这种强依赖不仅抬高了使…

    2025年12月11日
    57000
  • TCDiff++:突破群体舞蹈生成瓶颈,端到端模型实现虚拟群舞新高度

    在元宇宙与数字人技术快速发展的今天,群体舞蹈生成已成为虚拟演唱会、数字人集体表演等场景的核心需求。然而,现有技术在多人生成、动作协调和长序列稳定性方面面临严峻挑战。近期,由南京理工大学、清华大学和南京大学联合研发的端到端模型TCDiff++,通过创新性的架构设计,成功突破了这些技术壁垒,为高质量、长时序的群体舞蹈自动生成提供了完整解决方案。 当前群体舞蹈生成…

    2025年11月27日
    32900
  • Lumina-DiMOO:离散扩散架构重塑多模态统一模型,开启原生智能新纪元

    上海人工智能实验室近期推出的Lumina-DiMOO,标志着多模态人工智能领域迎来了一次架构层面的根本性变革。这款基于离散扩散建模(Discrete Diffusion Modeling)的扩散语言模型,首次在同一框架内实现了文本→图像、图像→图像、图像→文本的全栈能力闭环,打破了传统多模态任务间的技术壁垒。 **论文信息** 论文标题:Lumina-DiM…

    2025年11月16日
    38500
  • 《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局

    扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…

    2025年10月29日
    47900