扩散模型

  • 颠覆认知:扩散模型表征对齐中,空间结构竟比全局语义更重要

    在扩散模型的训练优化领域,表征对齐(REPA)技术自去年十月问世以来,一直被视为加速扩散Transformer训练的关键突破。该方法通过将预训练视觉编码器的表征蒸馏为中间扩散特征来指导生成式训练,显著提升了训练效率。然而,一个根本性问题长期悬而未决:对于生成任务而言,目标表征的哪个维度更为关键?是编码器捕获的全局语义信息(通常以ImageNet-1K分类准确…

    6天前
    200
  • FeRA:从频域第一性原理出发,实现扩散模型动态参数高效微调

    在大模型时代,参数高效微调(PEFT)已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式。从LoRA到DoRA,社区不断探索如何用更少的参数实现更好的适配。然而,现有微调方法大多采用“静态”策略:无论模型处于去噪过程的哪个阶段,适配器的参数都是固定不变的。这种“一刀切”的方式忽略了扩散生成过程内在的时序物理规律,导致模…

    AI产业动态 2025年12月12日
    200
  • LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

    近年来,基于扩散模型的视频生成技术取得了显著进展,大幅提升了视频编辑的真实感与可控性。然而,在文字驱动的视频对象移除与添加领域,依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象,还需同时维持背景连续性、时序一致性以及语义匹配,构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域,这种强依赖不仅抬高了使…

    2025年12月11日
    200
  • Lumina-DiMOO:离散扩散架构重塑多模态统一模型,开启原生智能新纪元

    上海人工智能实验室近期推出的Lumina-DiMOO,标志着多模态人工智能领域迎来了一次架构层面的根本性变革。这款基于离散扩散建模(Discrete Diffusion Modeling)的扩散语言模型,首次在同一框架内实现了文本→图像、图像→图像、图像→文本的全栈能力闭环,打破了传统多模态任务间的技术壁垒。 **论文信息** 论文标题:Lumina-DiM…

    2025年11月16日
    300
  • 《扩散模型原理》专著深度解析:统一理论框架如何重塑生成式AI的未来格局

    扩散模型作为生成式人工智能领域的革命性技术,自2020年以来已彻底改变了图像、音频、视频乃至3D内容的生成范式。然而,其复杂的数学基础和分散的研究视角,使得从业者往往难以系统掌握其核心原理。由Sony AI、OpenAI和斯坦福大学联合撰写的460页专著《The Principles of Diffusion Models》,正是为解决这一困境而诞生的权威指…

    2025年10月29日
    200