浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

随着扩散模型(Diffusion Models)的迭代演进,图像生成技术已日趋成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一具有广泛用户场景的关键领域,现有方法仍面临核心瓶颈:如何同时实现对多个对象的精确空间布局控制(Layout Control)以及良好的身份特征保持(Identity Preservation)。

主流方法往往难以兼顾两者:依赖文本和布局引导(Layout-to-Image)的模型通常难以实现高度的实例定制化,且常出现实例遗漏或属性泄露的问题;而主流的主体驱动(Subject-driven)方法在主体数量增加时,则面临严重的身份混淆和细节丢失问题。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 与主流 SOTA 方法的对比示例,以及 ContextGen 的使用案例。

为解决这一制约高度定制化图像生成的难题,浙江大学 ReLER 团队提出了 ContextGen,一个基于 Diffusion Transformer (DiT) 的新型框架。该框架旨在通过上下文学习,可靠地完成图像引导的多实例生成任务。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能
  • 论文地址:https://arxiv.org/abs/2510.11000
  • 项目地址:https://nenhang.github.io/ContextGen
  • 开源代码:https://github.com/nenhang/ContextGen
  • 开源模型:https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题。

双核驱动:实现布局与身份的双重保真

ContextGen 的双重核心机制共同作用于统一的上下文 Token 序列:

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 框架结构概览。

上下文布局锚定(Contextual Layout Anchoring, CLA)

CLA 机制聚焦于全局上下文引导,接受用户设计或模型自动拼合的布局图像作为输入,以提供精确的全局布局控制和初步的身份信息。它通过在 DiT 模块的前置层和后置层部署自注意力机制,确保文本、待生成图像和布局图像三者进行充分的注意力交互,从而有效控制整体图像结构。

身份一致性注意力(Identity Consistency Attention, ICA)

ICA 机制聚焦于细粒度的身份注入,利用原始高保真度的参考图像,将身份信息注入到其对应的目标位置,从而保障多个实例的身份一致性。它被部署到 DiT 模块的中间层,通过一个隔离式的注意力掩码,将参考图像的 Token 与对应待去噪区域的 Token 建立连接,旨在缓解因重叠或压缩导致的细节丢失问题,并在图像序列增长时保证身份信息的稳定注入。

这种层次化的双重注意力策略,使框架兼具了宏观的布局控制和精细的实例级身份保持能力。此外,ContextGen 还采用了增强的位置索引策略,系统性地组织并区分统一 Token 序列中多图像之间的关系。

数据基石:大规模详细标注的多实例数据集

针对当前领域高质量训练数据稀缺的现状,团队同时推出了 IMIG-100K 数据集。这是首个为图像引导的多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集。其构建流程代码也已开源,支持用户根据自身需求生成定制化数据集。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

IMIG-100K 数据集概览。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

IMIG-100K 的布局与身份标注示例。

性能优化:DPO 强化学习解放创造力

团队在训练过程中发现,仅使用监督微调容易导致模型过度参考布局图像,使生成的图像缺乏多样性和灵活性。为此,ContextGen 在监督微调之外,还引入了基于偏好优化(DPO)的强化学习阶段。该阶段将布局图像作为非偏好输入,鼓励模型不僵硬复制布局内容,从而生成更具创意和多样性的图像。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

DPO 微调过程示例。

实验验证:对标闭源模型,树立性能标杆

在广泛的定量和定性评估中,ContextGen 展现出卓越的 SOTA 性能。

身份保持:比肩闭源巨头

在 LAMICBench++ 基准测试中,ContextGen 不仅超越了所有开源模型(平均得分提升 +1.3%),更在身份一致性上比肩了一些闭源的商业巨头。在多实例的复杂场景中,ContextGen 在人物身份保持 (IDS) 和物体特征保持 (IPS) 上甚至可以与 GPT-4o 和 Nano Banana 一较高下。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定量对比。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定性对比 1。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定性对比 2。

布局与属性控制:准确率大幅提升

在 COCO-MIG 基准上,ContextGen 在实例级成功率 (I-SR) 上提升 +3.3%,空间准确性 (mIoU) 提升 +5.9%。在 LayoutSAM-Eval 基准中,ContextGen 在颜色、材质等属性的正确率上也超过了现有模型。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

COCO-MIG 和 LayoutSAM-Eval 基准的定量比较。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

COCO-MIG 基准的定性比较。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LayoutSam-Eval 基准的定性比较。

这些结果充分证明了 ContextGen 在多实例图像生成任务中的强大能力,成功实现了对布局和身份的双重精确控制。

前端支持:便捷的用户交互

为了方便用户体验,团队在项目中增加了一个简单易用的前端界面,支持用户上传参考图像、以文本形式添加新素材、通过拖拽方便地设计布局,并生成多实例图像。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 前端交互界面。

展望与未来

ContextGen 通过带有双重注意力的上下文机制,为高度可控的多实例生成提供了一个强大且可行的 DiT 框架。ReLER 团队进一步指出,如何更智能地理解用户的文本意图与多模态参考,仍然是一个值得深入探索的课题。未来,团队计划进一步优化模型架构,提升生成效率,并探索更多样化的用户交互方式,以满足更广泛的应用需求。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14477

(0)
上一篇 2025年12月20日 下午12:43
下一篇 2025年12月20日 下午12:46

相关推荐

  • AscendKernelGen:突破NPU算子生成瓶颈,大语言模型领域适配实现95.5%编译成功率

    关键词:昇腾 Ascend、NPU 内核生成、大语言模型、领域适应、强化学习、评估基准 在人工智能飞速发展的今天,深度学习的计算需求呈指数级增长,传统的 CPU 和通用 GPU 已难以满足特定场景下的高效计算要求。为此,神经处理单元(Neural Processing Unit,NPU) 作为专为 AI 计算设计的领域专用加速器,逐渐成为现代 AI 基础设施…

    2026年1月23日
    2400
  • 突破数据孤岛:Being-H0.5全栈开源具身模型以3.5万小时训练实现跨机器人零样本技能迁移

    BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 近年来爆火的具身智能领域长期面对着数据孤立导致的训练困境,一线厂商凭借高投入建立独属于自研型号机器的“数据护城河”,而小厂的资产规模直接反映在数据体量上,限制了其产品专用模型的训练。 BeingBeyond团队 近日发布的Being-H0.5有望改变这一局面。 Being-H0.5是目前训练…

    2026年1月23日
    3000
  • UltraRAG 3.0重磅发布:可视化白盒框架,让RAG开发从数月缩短至一周

    “验证算法原型只需一周,构建可用系统却耗时数月。” 这句看似调侃的“吐槽”,却是每一位算法工程师不得不面对的真实困境。 今天,清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB 、面壁智能与 AI9Stars 联合发布 UltraRAG 3.0。 针对上述痛点,为科研工作者与开发者打造更懂开发者的技术框架,具备 3 大核心优势: 从…

    大模型工程 2026年1月23日
    4000
  • 解锁Agentic AI并行化:14个核心模式提升系统可靠性与性能

    构建高效的智能体(Agentic)系统,离不开扎实的软件工程实践。其核心在于设计能够协调运作、并行执行,并能与外部系统高效交互的组件。例如,推测执行(Speculative Execution) 通过预先处理可预测的请求来降低延迟;冗余执行(Redundant Execution) 则通过同时运行同一智能体的多个副本来避免单点故障,提升系统韧性。除此之外,还…

    2025年11月27日
    8700
  • 从AI聊天到代理小队:如何用SCCR框架替代50%编码时间

    AI 生成的图片(概念与提示由作者撰写) 某个深夜,我几乎要关闭代码编辑器,开始质疑自己是否还属于这个行业。 我遵循了所有“正确”的实践:多年的经验、整洁的提交记录、扎实的代码评审。然而,我却目睹着更年轻的开发者以快我一倍的速度交付功能。原因在于,他们天生采用了一种“AI优先”的工作方式,而我仍将AI视为一个更聪明的搜索框。 他们在与“代理”结对编程。我却在…

    2025年11月20日
    7800