扩散模型 - 鲸林向海

Self-E框架：无需教师蒸馏，实现任意步数高质量文生图

尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性，但它们通常在推理时需要数十步网络迭代，这限制了其在需要低延迟或实时响应的应用场景中的潜力。为了降低推理步数，现有方法通常依赖于知识蒸馏：首先训练一个多步的教师模型，然后将能力迁移到少步的学生模型。然而，这条路径的代价同样显著——它既依赖于预训练的教师模型，又引入了额外的训练开销，并且在…

2026年1月15日

324000

大模型工程

清华UniCardio：多模态扩散模型革新心血管监测，实现实时全面信号生成

可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰，高质量的心血管信号仍难以长期便捷获取，这是智能健康监测系统始终面临的现实困境。近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…

2025年12月30日

526000

大模型推理

清华&生数开源TurboDiffusion：视频生成加速200倍，实时创作时代来临

在2025年末，一个全新视频生成加速框架的开源，宣告了“等待数分钟才能生成一个视频”的时代已经终结。这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。其加速效果极为显著：在几乎不影响生成质量的前提下，主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍，同时一个5秒480p视频的生成时长能被…

2025年12月26日

400000

大模型推理

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍现在，生成一个视频可能比你刷视频还要快。一个开源新框架，能让视频生成在保证质量的情况下，最高提速200多倍，并且仅需单张显卡即可实现。以1.3B参数、480P分辨率的模型为例，在单张RTX 5090上生成一段5秒视频，原始方法需要约184秒。而采用新框架后，时间缩短至1.9…

2025年12月25日

362000

大模型工程

DualCamCtrl：几何感知扩散模型革新视频生成，相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学（广州）EnVision Research 的张鸿飞（研究助理）和陈康豪（博士研究生），两位研究者均师从陈颖聪教授。你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？当前众多视频生成模型虽宣称具备「相机运动控制」能力，但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向（Ray Condition）…

2025年12月21日

360000

大模型工程

DualCamCtrl：双分支扩散模型革新视频生成，几何感知让相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学（广州）EnVision Research 的张鸿飞（研究助理）和陈康豪（博士研究生），两位研究者均师从陈颖聪教授。你的生成模型真的「懂几何」吗？当前众多视频生成模型虽宣称具备「相机运动控制」能力，但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向（Ray Condition）编码了运动信息，但由于模型仍…

2025年12月21日

397000

大模型工程

浙大ContextGen突破多实例生成瓶颈：布局控制与身份保持双重精准，刷新SOTA性能

随着扩散模型（Diffusion Models）的迭代演进，图像生成技术已日趋成熟。然而，在多实例图像生成（Multi-Instance Image Generation, MIG）这一具有广泛用户场景的关键领域，现有方法仍面临核心瓶颈：如何同时实现对多个对象的精确空间布局控制（Layout Control）以及良好的身份特征保持（Identity Pres…

2025年12月20日

384000

AI产业动态

ContextGen：双重注意力机制突破多实例图像生成瓶颈，布局控制与身份保真实现协同优化

随着扩散模型在单图像生成领域的日益成熟，研究焦点正逐步转向更具挑战性的多实例图像生成（Multi-Instance Image Generation, MIG）任务。这一任务要求模型在生成包含多个主体的图像时，不仅能精确控制各实例的空间布局，还需保持每个主体与参考图像的高度身份一致性。然而，现有方法往往难以兼顾这两大核心需求：专注于布局控制的技术常忽略身份注…

2025年12月19日

392000

AI产业动态

颠覆认知：扩散模型表征对齐中，空间结构竟比全局语义更重要

在扩散模型的训练优化领域，表征对齐（REPA）技术自去年十月问世以来，一直被视为加速扩散Transformer训练的关键突破。该方法通过将预训练视觉编码器的表征蒸馏为中间扩散特征来指导生成式训练，显著提升了训练效率。然而，一个根本性问题长期悬而未决：对于生成任务而言，目标表征的哪个维度更为关键？是编码器捕获的全局语义信息（通常以ImageNet-1K分类准确…

2025年12月13日

365000

FeRA：从频域第一性原理出发，实现扩散模型动态参数高效微调

在大模型时代，参数高效微调（PEFT）已成为将Stable Diffusion、Flux等大规模扩散模型迁移至下游任务的标准范式。从LoRA到DoRA，社区不断探索如何用更少的参数实现更好的适配。然而，现有微调方法大多采用“静态”策略：无论模型处于去噪过程的哪个阶段，适配器的参数都是固定不变的。这种“一刀切”的方式忽略了扩散生成过程内在的时序物理规律，导致模…

AI产业动态 2025年12月12日

315000