浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

随着扩散模型(Diffusion Models)的迭代演进,图像生成技术已日趋成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一具有广泛用户场景的关键领域,现有方法仍面临核心瓶颈:如何同时实现对多个对象的精确空间布局控制(Layout Control)以及良好的身份特征保持(Identity Preservation)。

主流方法往往难以兼顾两者:依赖文本和布局引导(Layout-to-Image)的模型通常难以实现高度的实例定制化,且常出现实例遗漏或属性泄露的问题;而主流的主体驱动(Subject-driven)方法在主体数量增加时,则面临严重的身份混淆和细节丢失问题。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 与主流 SOTA 方法的对比示例,以及 ContextGen 的使用案例。

为解决这一制约高度定制化图像生成的难题,浙江大学 ReLER 团队提出了 ContextGen,一个基于 Diffusion Transformer (DiT) 的新型框架。该框架旨在通过上下文学习,可靠地完成图像引导的多实例生成任务。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能
  • 论文地址:https://arxiv.org/abs/2510.11000
  • 项目地址:https://nenhang.github.io/ContextGen
  • 开源代码:https://github.com/nenhang/ContextGen
  • 开源模型:https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题。

双核驱动:实现布局与身份的双重保真

ContextGen 的双重核心机制共同作用于统一的上下文 Token 序列:

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 框架结构概览。

上下文布局锚定(Contextual Layout Anchoring, CLA)

CLA 机制聚焦于全局上下文引导,接受用户设计或模型自动拼合的布局图像作为输入,以提供精确的全局布局控制和初步的身份信息。它通过在 DiT 模块的前置层和后置层部署自注意力机制,确保文本、待生成图像和布局图像三者进行充分的注意力交互,从而有效控制整体图像结构。

身份一致性注意力(Identity Consistency Attention, ICA)

ICA 机制聚焦于细粒度的身份注入,利用原始高保真度的参考图像,将身份信息注入到其对应的目标位置,从而保障多个实例的身份一致性。它被部署到 DiT 模块的中间层,通过一个隔离式的注意力掩码,将参考图像的 Token 与对应待去噪区域的 Token 建立连接,旨在缓解因重叠或压缩导致的细节丢失问题,并在图像序列增长时保证身份信息的稳定注入。

这种层次化的双重注意力策略,使框架兼具了宏观的布局控制和精细的实例级身份保持能力。此外,ContextGen 还采用了增强的位置索引策略,系统性地组织并区分统一 Token 序列中多图像之间的关系。

数据基石:大规模详细标注的多实例数据集

针对当前领域高质量训练数据稀缺的现状,团队同时推出了 IMIG-100K 数据集。这是首个为图像引导的多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集。其构建流程代码也已开源,支持用户根据自身需求生成定制化数据集。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

IMIG-100K 数据集概览。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

IMIG-100K 的布局与身份标注示例。

性能优化:DPO 强化学习解放创造力

团队在训练过程中发现,仅使用监督微调容易导致模型过度参考布局图像,使生成的图像缺乏多样性和灵活性。为此,ContextGen 在监督微调之外,还引入了基于偏好优化(DPO)的强化学习阶段。该阶段将布局图像作为非偏好输入,鼓励模型不僵硬复制布局内容,从而生成更具创意和多样性的图像。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

DPO 微调过程示例。

实验验证:对标闭源模型,树立性能标杆

在广泛的定量和定性评估中,ContextGen 展现出卓越的 SOTA 性能。

身份保持:比肩闭源巨头

在 LAMICBench++ 基准测试中,ContextGen 不仅超越了所有开源模型(平均得分提升 +1.3%),更在身份一致性上比肩了一些闭源的商业巨头。在多实例的复杂场景中,ContextGen 在人物身份保持 (IDS) 和物体特征保持 (IPS) 上甚至可以与 GPT-4o 和 Nano Banana 一较高下。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定量对比。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定性对比 1。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LAMICBench++ 基准的定性对比 2。

布局与属性控制:准确率大幅提升

在 COCO-MIG 基准上,ContextGen 在实例级成功率 (I-SR) 上提升 +3.3%,空间准确性 (mIoU) 提升 +5.9%。在 LayoutSAM-Eval 基准中,ContextGen 在颜色、材质等属性的正确率上也超过了现有模型。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

COCO-MIG 和 LayoutSAM-Eval 基准的定量比较。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

COCO-MIG 基准的定性比较。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

LayoutSam-Eval 基准的定性比较。

这些结果充分证明了 ContextGen 在多实例图像生成任务中的强大能力,成功实现了对布局和身份的双重精确控制。

前端支持:便捷的用户交互

为了方便用户体验,团队在项目中增加了一个简单易用的前端界面,支持用户上传参考图像、以文本形式添加新素材、通过拖拽方便地设计布局,并生成多实例图像。

浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

ContextGen 前端交互界面。

展望与未来

ContextGen 通过带有双重注意力的上下文机制,为高度可控的多实例生成提供了一个强大且可行的 DiT 框架。ReLER 团队进一步指出,如何更智能地理解用户的文本意图与多模态参考,仍然是一个值得深入探索的课题。未来,团队计划进一步优化模型架构,提升生成效率,并探索更多样化的用户交互方式,以满足更广泛的应用需求。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14477

(0)
上一篇 2025年12月20日 下午12:43
下一篇 2025年12月20日 下午12:46

相关推荐

  • OpenAI内部开发大揭秘:Codex已成工程师队友,每周重塑软件开发!

    “未来某个时间点,我们或许会为智能体(Agent)构建软件。届时,智能体可能会扮演产品经理或产品工程师的角色。” 在近期举行的 Pragmatic Summit 上,OpenAI Codex 工程主管 Tibo Sottiaux 与 OpenAI 应用首席技术官 Vijaye Raji 分享了 OpenAI 内部工程师使用 AI 进行开发的真实体验与观察。 …

    2026年2月27日
    1.3K00
  • DeepMind突破:多智能体系统规模化瓶颈揭示,任务匹配度成关键性能指标

    在AI领域,智能体(Agent)的研究与应用日益增多,原生多智能体工作的基础模型也已开始出现。 作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式。从编程助手到私人健康教练,AI应用正从单次问答转向持续的多步骤交互。尽管研究人员长期以来一直利用既定指标来优化传统机器学习模型的准确性,但AI智能体引入了新的复杂性。 与孤立的预测…

    2026年2月25日
    42000
  • 北京版幻方开源SOTA代码大模型IQuest-Coder-V1:40B参数性能超Opus-4.5/GPT-5.2,单张3090可运行

    IQuest-Coder-V1:性能超群的代码大模型 近期,一个名为 IQuest-Coder-V1 的代码大模型系列在科技领域引发广泛关注。 在最新的SWE-Bench Verified榜单中,其40B参数版本取得了81.4%的成绩,表现超越了Claude Opus-4.5与GPT-5.2等模型。 除了基准测试成绩,其实际代码生成能力同样引人注目。例如,当…

    2026年1月2日
    51200
  • Wattchmen:突破GPU能耗建模瓶颈,指令级归因误差降至14%以下

    关键词:GPU 能耗建模、指令级能耗归因、SASS 微架构、线性方程组求解、异构计算功耗优化 “现代 GPU 丰富的高性能计算系统正日益受到能源约束。因此,理解应用的能耗变得至关重要。不幸的是,当前的 GPU 能耗归因技术要么不准确,要么不灵活,要么已经过时。” 这是来自威斯康星大学麦迪逊分校、NVIDIA 及橡树岭国家实验室联合团队在 ICS‘26 发表的…

    2026年4月23日
    13700
  • 腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法

    腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法 近日,腾讯混元团队提出HY-SOAR(Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本,直接从训练数据中挖掘轨迹级纠正信号,…

    2026年4月23日
    17700