扩散模型 - 鲸林向海

0.39B参数端侧模型DreamLite：一个模型搞定文生图与图像编辑，iPhone 17 Pro仅需3秒

近日，字节跳动智能创作团队（Intelligent Creation Lab）发布了一项全新成果——DreamLite。这是一个主干网络参数仅为0.39B的轻量级统一扩散模型，能够在单一网络内同时执行文生图（Text-to-Image）与图像编辑（Text-guided Image Editing）两项任务。据公开资料显示，这是目前已知首个具备此能力的端侧模…

大模型工程 7小时前

22000

AI产业动态

SIGGRAPH 2026接收！UniVidX统一框架实现多模态视频生成新突破

近日，来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」，已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。论文地址：https://arxiv.org…

1天前

106000

大模型评测

统治AI图像生成近10年的黄金标准FID首次被拉下场当教练，全华阵容提出FD-loss实现直接优化

统治AI图像生成近10年的黄金标准FID首次被拉下场当教练，全华阵容提出FD-loss实现直接优化统治AI图像生成领域近十年的黄金标准，首次被拉下神坛，扮演起“教练”的角色。这里说的是FID（Frechet Inception Distance）。这个自2017年起沿用至今的指标，一直无法直接应用于日常模型训练。如今，这一困境已被打破—— 来自USC…

2026年5月4日

146000

大模型工程

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法近日，腾讯混元团队提出HY-SOAR（Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本，直接从训练数据中挖掘轨迹级纠正信号，…

2026年4月23日

171000

大模型训练

Sol-RL：NVIDIA联合团队突破扩散模型强化学习算力瓶颈，FP4探索+BF16训练实现高效对齐

关键词：扩散模型强化学习（Diffusion RL）、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构在文本到图像扩散模型的后训练对齐领域，GRPO 等强化学习方法虽效果显著，却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架，并未采用对模型进行直接粗暴…

2026年4月13日

335000

AI产业动态

PerturbDiff：AI预测抗癌新药效果，首次将细胞群体分布视为随机变量，刷新单细胞响应预测SOTA

PerturbDiff：将细胞群体分布视为随机变量，刷新单细胞响应预测SOTA 如何利用AI预测一款抗癌新药对特定癌细胞的影响？一个直观的思路是让AI学习同一个细胞在药物处理前后的基因表达变化规律。然而，单细胞转录组测序（scRNA-seq）的“破坏性”构成了根本障碍：一旦对细胞状态进行观测，该细胞即被溶解。因此，我们无法在施加微扰（如药物干预、基因编辑）…

2026年3月12日

387000

大模型推理

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

无需数据重训，视频扩散模型线性化提速20倍：CVPR 2024新突破视频生成已进入大规模时代，但随之而来的计算成本急剧攀升。生成一段10秒的视频，其token数量可超过5万，而模型核心的自注意力机制复杂度为O(n²)，导致推理过程极其缓慢，难以实用。将自注意力替换为复杂度为O(n)的线性注意力，是理想的解决方案，但现实情况是：直接替换会导致模型生成质量严…

2026年3月10日

305000

AI产业动态

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画在图像生成领域，扩散模型通常需要数十步的迭代去噪才能生成高质量图像，这带来了高昂的计算成本，阻碍了实时应用。为了加速推理，常见的知识蒸馏方法试图将生成过程压缩到几步之内，但它们通常假设从噪声到图像的路径是一条直线，而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

2026年2月15日

381000

AI产业动态

何恺明团队颠覆生成模型范式：漂移模型实现单步推理，告别迭代训练

训练生成模型是一项复杂的任务。从底层逻辑看，生成模型是一个逐步拟合的过程。与常见的判别模型不同，判别模型关注将单个样本映射到对应标签，而生成模型则关注从一个分布映射到另一个分布。以大家熟悉的扩散模型为例，扩散模型及其基于流的对应方法，通常通过微分方程（随机微分方程 SDE 或常微分方程 ODE）来刻画从噪声到数据的映射。然而，训练扩散模型耗时费力，其核心…

2026年2月8日

391000

AI产业动态

阿里2步生成方案：5秒4张2K图，AI生图速度提升40倍

阿里智能引擎团队推出2步生成方案：5秒产出4张2K图，速度提升40倍 AI生成一张图片，你愿意等多久？当主流扩散模型仍在迭代中让用户等待时，阿里智能引擎团队实现了突破性的加速——仅需5秒钟，即可生成4张2K级高清大图。该方案针对最新的Qwen开源模型，将生成所需的前向计算步数从80-100步大幅压缩至2步，速度提升达40倍。这意味着，原本需要近一分钟生成…

2026年1月30日

340000