随着扩散模型在单图像生成领域的日益成熟,研究焦点正逐步转向更具挑战性的多实例图像生成(Multi-Instance Image Generation, MIG)任务。这一任务要求模型在生成包含多个主体的图像时,不仅能精确控制各实例的空间布局,还需保持每个主体与参考图像的高度身份一致性。然而,现有方法往往难以兼顾这两大核心需求:专注于布局控制的技术常忽略身份注入的细节保真,而依赖参考图像引导的方法则难以实现精确的布局安排,尤其在实例数量增加时,身份信息丢失问题尤为突出。
针对这一技术瓶颈,浙江大学ReLER团队近期提出了基于DiT架构的新框架ContextGen。该框架通过创新的双重上下文注意力机制,在布局控制与身份保真之间建立了有效的协同桥梁,并在多项关键指标上实现了SOTA性能突破。

ContextGen的核心创新在于其分层解耦的上下文处理策略。该框架将复杂的多实例生成任务分解为宏观布局控制与微观身份注入两个子问题,并通过在DiT架构的不同层级部署专门的注意力机制来分别应对。

首先,在宏观布局控制方面,ContextGen引入了上下文布局锚定(Contextual Layout Anchoring, CLA)机制。CLA将包含实例位置信息的布局图像整合到生成上下文中,通过对文本、待生成图像和布局图像三者间的充分信息交互,实现对全局结构的鲁棒锚定。值得注意的是,CLA注意力被战略性地部署在DiT模块的前置和后置层,这种设计确保了布局信息在生成过程的早期阶段就被有效编码,并在后续阶段得到强化,从而保障了精确的空间控制能力。

其次,在微观身份注入方面,框架提出了身份一致性注意力(Identity Consistency Attention, ICA)机制。ICA专门针对多实例生成中常见的细节丢失问题,特别是在图像压缩或实例重叠区域。该机制被引入到DiT模块的中间层,利用原始高保真度的参考图像,通过定制的注意力掩码,约束去噪图像中每个实例区域的token仅与其对应的参考token进行交互。这种“隔离式”的注意力设计实现了对目标区域的身份专属注入,有效防止了不同实例身份信息的相互干扰,从而在多实例情景下保障了身份一致性。
这种“前后管结构,中间管细节”的架构设计,使得ContextGen能够充分利用图像上下文信息,在保持精确布局控制的同时,实现对多个实例身份的高保真还原。

除了算法创新,研究团队还针对当前领域高质量训练数据稀缺的现状,同步推出了IMIG-100K数据集。这是首个专门为图像引导多实例生成任务设计的大规模合成数据集,包含详细的布局和身份标注。数据集的构建代码和处理流程已完全开源,为研究者自定义生成更多样、更大量的训练数据提供了便利。

为进一步提升生成质量,ContextGen还引入了基于偏好优化(DPO)的强化学习阶段。这一创新设计旨在避免传统监督微调可能导致的布局僵硬复制问题。通过将布局图像作为非偏好输入,该阶段鼓励模型在保持身份一致性的同时,生成更具多样性和创造性的图像,从而提升了整体生成自由度。
在性能评估方面,ContextGen在多项标准基准测试中展现了卓越表现。在COCO-MIG基准上,模型在空间准确性(mIoU)指标上提升了5.9%,显著优于基线模型。在LayoutSAM-Eval基准上,ContextGen在多项指标上均实现了SOTA,尤其在实例的颜色、纹理和形状属性保持方面表现突出。

在LAMICBench++的身份保持能力测试中,ContextGen同样超越了现有开源SOTA模型,在身份保持能力(IDS, IPS)和综合性能方面均实现了显著提升。

值得关注的是,在多主体任务的身份保持能力测试中,ContextGen甚至相较于GPT-4o、Nano Banana等闭源模型仍保持显著优势,这充分证明了其技术方案的先进性和有效性。





为方便用户体验,研究团队还开发了简单易用的前端界面,支持多参考图上传、自动抠图、自定义布局设计等功能,降低了技术使用门槛。

总体而言,ContextGen通过创新的双重上下文注意力机制,在多实例图像生成领域实现了布局控制精度与身份保真度的协同优化。结合首发的IMIG-100K数据集和DPO强化学习策略,该框架为高度定制化图像生成提供了新的技术范式。研究团队在论文中指出,随着生成模型向更复杂的应用场景拓展,动态身份适应将成为关键研究方向,如何更智能地理解和协调用户的文本意图与视觉参考,将是未来工作的重点。

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/9022
