DeepGen 1.0:开源统一多模态生成编辑模型
近年来,统一多模态生成编辑模型正朝着参数规模庞大的方向发展,动辄数十亿参数,这为普通研究团队的复现和个人本地部署带来了显著挑战。
近日,由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B(其中视觉语言模型部分3B,扩散Transformer部分2B),同时集成了图像生成、图像编辑、推理生成、推理编辑和文字渲染五大核心能力。
据社区实测,该模型在NVIDIA GeForce RTX 4060 Ti 16GB显卡上仅需约10秒即可完成图像生成,且在多项质量指标上超越了参数量大四倍的工业级生成模型。
研究团队开源了包括预训练、监督微调和强化学习在内的全流程训练代码,以及对应的高质量训练数据集,旨在支持社区从零复现模型结果或进行进一步探索。同时,团队也发布了不同训练阶段的模型权重,以助力统一多模态生成编辑模型的研究。作为一款轻量级模型,DeepGen 1.0能够以较低成本进行部署,实现在家用硬件上的实时图像生成。

核心技术要点
- 堆叠通道桥接与隐式“Think Token”:通过堆叠通道桥接技术,实现了视觉语言模型的理解能力与扩散Transformer生成能力之间的跨层高效深度融合。引入的可学习“Think Token”作为一种隐式思维链,旨在提升模型面对复杂指令的推理能力,且不显著增加参数量。
- 多阶段训练策略:训练过程分为三个阶段:预对齐、联合微调,以及通过强化学习对齐人类偏好并提升文本渲染能力。
- MR-GRPO强化学习方法:在强化学习阶段,采用辅助监督微调损失与KL正则化的双重约束,使训练能够稳定扩展到1500步。
开源统一多模态生成编辑模型的挑战
过去一年,统一多模态生成编辑模型发展迅速,但行业仍面临几大挑战:工业级模型参数量巨大,导致生成速度慢、训练成本高,普通团队难以复现;生成与编辑能力通常由不同模型分别承担,增加了部署和维护的复杂性;更重要的是,社区缺乏完整的开源训练推理流程和高质量训练数据,难以达到工业级效果。
DeepGen 1.0的发布旨在应对上述问题。
DeepGen 1.0 架构与训练方法
DeepGen 1.0采用视觉语言模型与扩散Transformer结合的架构(3B VLM + 2B DiT)。视觉语言模型作为理解分支,负责处理文本和图像输入,提供语义理解与世界知识;扩散Transformer作为生成分支,在视觉语言模型提供的多模态条件引导下生成高质量图像。两者之间通过一个精简的编码器连接器模块进行特征对齐。
在此基础上,模型使用堆叠通道桥接技术将两个分支进行深度融合。可学习的Think Tokens充当隐式思维链,旨在缓解信息丢失和表示偏移等问题,同时提升模型处理复杂指令的推理能力,且不引入大量额外参数。
训练采用多阶段策略:首先训练连接器模块进行预对齐;随后对视觉语言模型和扩散Transformer进行高质量的多任务联合微调;最后通过强化学习进一步优化视觉效果,并与人类偏好对齐。
训练数据融合了真实世界数据、合成数据以及精心筛选的开源数据集,覆盖了通用生成与编辑、基于推理的生成与编辑、文本渲染,以及面向特定应用场景(如海报创作、人像生成等)的多种任务类型。

模型效果评估
定量结果分析
- 通用生成与编辑

- 推理生成

- 推理编辑

生成效果展示

MR-GRPO 强化学习方法

DeepGen在强化学习阶段引入了MR-GRPO方法。相比于传统方法,MR-GRPO混合使用点式与对式奖励模型来评估生成图像,采用了三种互补的奖励函数:基于视觉语言模型的成对偏好奖励(评估图文对齐和视觉质量)、OCR奖励(优化文字渲染准确度)以及CLIP相似度奖励(衡量整体语义一致性)。
为了缓解强化学习训练中可能出现的通用能力退化和图像网格化问题,团队提出了辅助监督微调损失作为结果引导,提供高质量生成的监督信号,锚定模型输出,防止长期训练中的能力漂移或坍塌;同时辅以KL正则化作为过程引导,约束模型在去噪轨迹上不要过度偏离参考模型。两者协同作用,使得强化学习训练能够稳定扩展到1500步,据称文本渲染能力提升约10%,综合能力提升约1.5%。

实验表明,移除辅助监督微调损失后,模型在大约300步后性能开始显著下降,最终性能大幅退化,甚至可能低于强化学习训练前的基线水平。这证明了辅助监督微调损失与KL正则化提供了互补且必要的约束。
构建高效的全开源流程
在当前统一多模态生成编辑模型普遍走向闭源的背景下,该研究团队选择了全面开源,公开了训练代码、推理代码、模型权重以及高质量训练数据。这使得研究者无需依赖数百GPU的集群,也能基于此完整框架从零复现模型,或在此基础上开发垂直领域的专用模型。
DeepGen 1.0的轻量化特性是其另一优势。仅5B参数的模型使得在一张消费级显卡上实现快速图像生成成为可能,填补了“小模型、强能力”领域的空白,降低了高质量图像生成的技术门槛,也为端侧设备的轻量部署和实时生成提供了潜在可能。
DeepGen 1.0的开源旨在补全统一多模态生成编辑模型领域的开源版图,研究团队表示未来将持续迭代,推动该领域的开源协作发展。
论文标题:DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
论文链接:https://arxiv.org/abs/2602.12205
代码仓库:https://github.com/deepgenteam/deepgen
模型权重(Hugging Face):https://huggingface.co/deepgenteam/DeepGen-1.0
模型权重(Diffusers格式):https://huggingface.co/deepgenteam/DeepGen-1.0-diffusers
训练数据集:https://huggingface.co/datasets/deepgenteam/DeepGen-1.0

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26275


