DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

DeepGen 1.0:开源统一多模态生成编辑模型

近年来,统一多模态生成编辑模型正朝着参数规模庞大的方向发展,动辄数十亿参数,这为普通研究团队的复现和个人本地部署带来了显著挑战。

近日,由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B(其中视觉语言模型部分3B,扩散Transformer部分2B),同时集成了图像生成、图像编辑、推理生成、推理编辑和文字渲染五大核心能力。

据社区实测,该模型在NVIDIA GeForce RTX 4060 Ti 16GB显卡上仅需约10秒即可完成图像生成,且在多项质量指标上超越了参数量大四倍的工业级生成模型。

研究团队开源了包括预训练、监督微调和强化学习在内的全流程训练代码,以及对应的高质量训练数据集,旨在支持社区从零复现模型结果或进行进一步探索。同时,团队也发布了不同训练阶段的模型权重,以助力统一多模态生成编辑模型的研究。作为一款轻量级模型,DeepGen 1.0能够以较低成本进行部署,实现在家用硬件上的实时图像生成。

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

核心技术要点

  • 堆叠通道桥接与隐式“Think Token”:通过堆叠通道桥接技术,实现了视觉语言模型的理解能力与扩散Transformer生成能力之间的跨层高效深度融合。引入的可学习“Think Token”作为一种隐式思维链,旨在提升模型面对复杂指令的推理能力,且不显著增加参数量。
  • 多阶段训练策略:训练过程分为三个阶段:预对齐、联合微调,以及通过强化学习对齐人类偏好并提升文本渲染能力。
  • MR-GRPO强化学习方法:在强化学习阶段,采用辅助监督微调损失与KL正则化的双重约束,使训练能够稳定扩展到1500步。

开源统一多模态生成编辑模型的挑战

过去一年,统一多模态生成编辑模型发展迅速,但行业仍面临几大挑战:工业级模型参数量巨大,导致生成速度慢、训练成本高,普通团队难以复现;生成与编辑能力通常由不同模型分别承担,增加了部署和维护的复杂性;更重要的是,社区缺乏完整的开源训练推理流程和高质量训练数据,难以达到工业级效果。

DeepGen 1.0的发布旨在应对上述问题。

DeepGen 1.0 架构与训练方法

DeepGen 1.0采用视觉语言模型与扩散Transformer结合的架构(3B VLM + 2B DiT)。视觉语言模型作为理解分支,负责处理文本和图像输入,提供语义理解与世界知识;扩散Transformer作为生成分支,在视觉语言模型提供的多模态条件引导下生成高质量图像。两者之间通过一个精简的编码器连接器模块进行特征对齐。

在此基础上,模型使用堆叠通道桥接技术将两个分支进行深度融合。可学习的Think Tokens充当隐式思维链,旨在缓解信息丢失和表示偏移等问题,同时提升模型处理复杂指令的推理能力,且不引入大量额外参数。

训练采用多阶段策略:首先训练连接器模块进行预对齐;随后对视觉语言模型和扩散Transformer进行高质量的多任务联合微调;最后通过强化学习进一步优化视觉效果,并与人类偏好对齐。

训练数据融合了真实世界数据、合成数据以及精心筛选的开源数据集,覆盖了通用生成与编辑、基于推理的生成与编辑、文本渲染,以及面向特定应用场景(如海报创作、人像生成等)的多种任务类型。

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

模型效果评估

定量结果分析

  • 通用生成与编辑
    DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型
  • 推理生成
    DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型
  • 推理编辑
    DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

生成效果展示

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

MR-GRPO 强化学习方法

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

DeepGen在强化学习阶段引入了MR-GRPO方法。相比于传统方法,MR-GRPO混合使用点式与对式奖励模型来评估生成图像,采用了三种互补的奖励函数:基于视觉语言模型的成对偏好奖励(评估图文对齐和视觉质量)、OCR奖励(优化文字渲染准确度)以及CLIP相似度奖励(衡量整体语义一致性)。

为了缓解强化学习训练中可能出现的通用能力退化和图像网格化问题,团队提出了辅助监督微调损失作为结果引导,提供高质量生成的监督信号,锚定模型输出,防止长期训练中的能力漂移或坍塌;同时辅以KL正则化作为过程引导,约束模型在去噪轨迹上不要过度偏离参考模型。两者协同作用,使得强化学习训练能够稳定扩展到1500步,据称文本渲染能力提升约10%,综合能力提升约1.5%。

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

实验表明,移除辅助监督微调损失后,模型在大约300步后性能开始显著下降,最终性能大幅退化,甚至可能低于强化学习训练前的基线水平。这证明了辅助监督微调损失与KL正则化提供了互补且必要的约束。

构建高效的全开源流程

在当前统一多模态生成编辑模型普遍走向闭源的背景下,该研究团队选择了全面开源,公开了训练代码、推理代码、模型权重以及高质量训练数据。这使得研究者无需依赖数百GPU的集群,也能基于此完整框架从零复现模型,或在此基础上开发垂直领域的专用模型。

DeepGen 1.0的轻量化特性是其另一优势。仅5B参数的模型使得在一张消费级显卡上实现快速图像生成成为可能,填补了“小模型、强能力”领域的空白,降低了高质量图像生成的技术门槛,也为端侧设备的轻量部署和实时生成提供了潜在可能。

DeepGen 1.0的开源旨在补全统一多模态生成编辑模型领域的开源版图,研究团队表示未来将持续迭代,推动该领域的开源协作发展。

论文标题:DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
论文链接:https://arxiv.org/abs/2602.12205
代码仓库:https://github.com/deepgenteam/deepgen
模型权重(Hugging Face):https://huggingface.co/deepgenteam/DeepGen-1.0
模型权重(Diffusers格式):https://huggingface.co/deepgenteam/DeepGen-1.0-diffusers
训练数据集:https://huggingface.co/datasets/deepgenteam/DeepGen-1.0

DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26275

(0)
上一篇 2026年3月18日 上午11:00
下一篇 2026年3月18日 上午11:04

相关推荐

  • 硅谷明星项目Hermes Agent被曝架构级抄袭中国团队EvoMap,8.5万Star背后竟是AI洗代码?

    近日,GitHub上获得8.5万星标的明星项目Hermes Agent被指控存在架构级抄袭。硅谷AI实验室Nous Research的该项目,被指其核心的自进化架构,与中国团队EvoMap在36天前开源的Evolver引擎高度相似。技术对比报告显示,两者在主循环步骤、架构设计上存在一一对应关系,但Hermes Agent在7份公开材料中均未提及EvoMap。…

    2026年4月15日
    1.3K00
  • 揭秘OpenClaw:从周末项目到现象级开源AI的5个惊人真相

    OpenClaw 创始人 Peter Steinberger 过去几天,OpenClaw 几乎席卷了技术社区的信息流。每一位 AI 爱好者都在讨论它——人们利用这个自动化系统构建各类项目,探索着无穷无尽的应用场景。 简单来说,OpenClaw 是一个开源的自主智能体,旨在扮演一个主动的 AI 助手。它不同于需要等待指令的标准聊天机器人,而是作为一个常驻服务运…

    开源项目 2026年2月26日
    44600
  • 国产AI开发平台BISHENG:GitHub斩获10K星,企业级LLM DevOps解决方案

    在浏览 GitHub 时,一个名为 BISHENG 的国产 AI 开源项目引起了我的注意。 这是一款主要面向企业的开源 AgentOps 平台。其名称源自活字印刷术的发明者——毕昇。活字印刷术曾极大地推动了人类知识的传播,而 BISHENG 团队的愿景,则是为智能应用的广泛落地提供有力支撑。 开源项目简介 BISHENG 已在 GitHub 上获得了超过 1…

    2025年11月24日
    63400
  • 开源3天斩获7000星!复刻Manus工作流的GitHub项目引爆Agent开发圈

    这个名为 planning-with-files 的开源项目近期在 Agent 开发社区引发了高度关注,其核心在于通过文件系统来管理 AI 的长期记忆与复杂任务规划。项目开源仅数日,便在 GitHub 上获得了数千星标。 它演示了如何利用 Claude Code Skill 实现与 Manus 产品理念相似的上下文工程工作流。 Manus 的上下文工程原则 …

    2026年1月12日
    42300
  • 10天4万星!这个开源项目让AI生成的界面秒变大牌设计,DESIGN.md重塑UI设计未来

    10天4万星!DESIGN.md:让AI生成的界面秒变大牌设计 概述 近期,一个名为 awesome-design-md 的开源项目在开发者社区引发广泛关注。该项目在短短十天内便获得了超过四万颗星标,其核心价值在于有效解决了AI生成界面往往缺乏设计一致性与专业美感的问题。 项目理念直接而高效:它将 Nike、Claude、Notion、Figma 等众多知名…

    2026年4月14日
    73000