扩散模型
-
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法 近日,腾讯混元团队提出HY-SOAR(Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本,直接从训练数据中挖掘轨迹级纠正信号,…
-
Sol-RL:NVIDIA联合团队突破扩散模型强化学习算力瓶颈,FP4探索+BF16训练实现高效对齐
关键词:扩散模型强化学习(Diffusion RL)、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构 在文本到图像扩散模型的后训练对齐领域,GRPO 等强化学习方法虽效果显著,却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架,并未采用对模型进行直接粗暴…
-
PerturbDiff:AI预测抗癌新药效果,首次将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA
PerturbDiff:将细胞群体分布视为随机变量,刷新单细胞响应预测SOTA 如何利用AI预测一款抗癌新药对特定癌细胞的影响?一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。 然而,单细胞转录组测序(scRNA-seq)的“破坏性”构成了根本障碍:一旦对细胞状态进行观测,该细胞即被溶解。因此,我们无法在施加微扰(如药物干预、基因编辑)…
-
LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破
无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…
-
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…
-
何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练
训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…
-
阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍
阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…
-
Self-E框架:无需教师蒸馏,实现任意步数高质量文生图
尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性,但它们通常在推理时需要数十步网络迭代,这限制了其在需要低延迟或实时响应的应用场景中的潜力。 为了降低推理步数,现有方法通常依赖于知识蒸馏:首先训练一个多步的教师模型,然后将能力迁移到少步的学生模型。然而,这条路径的代价同样显著——它既依赖于预训练的教师模型,又引入了额外的训练开销,并且在…
-
清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成
可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…
-
清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临
在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…
