
在人工智能图像生成领域,个性化人像合成一直是技术攻关的难点。传统方法往往陷入“复制粘贴”的困境——生成结果高度依赖输入图像的表情、角度和姿态,缺乏自然的变化与多样性。近日,复旦大学与阶跃星辰的研究团队联合发布全新AI合照生成模型WithAnyone,通过创新的数据策略与训练框架,成功打破了这一技术瓶颈,实现了身份一致性(ID Consistency)与身份可控性(ID Controllability)的双重突破。

WithAnyone的核心能力在于其个性化AI合照生成机制。用户仅需提供单人多角度照片或多人各一张照片,模型即可生成自然、真实且毫无违和感的合照。与当前流行的InstantID、PuLID等方法相比,WithAnyone不再简单复制输入图像的视觉特征,而是能够生成同一人物在不同角度、表情和光照条件下的多样化输出,同时确保多人合照中个体身份的准确性与场景的整体和谐。

这一突破的背后,是研究团队对现有技术局限性的深刻洞察。传统个性化生成模型由于缺乏同一人物的多视角数据,通常采用“重建”训练方案,即参考输入图同时作为监督目标。这种模式导致模型过度拟合输入特征,生成结果与参考图像高度相似,甚至超过同一人物不同真实照片之间的相似度,形成了“越像越复制”的技术悖论。

为了量化这一问题,团队提出了MultiID-Bench评测基准及配套的“复制粘贴”指标。该指标通过计算“生成结果到参考输入的距离”与“生成结果到目标输出的距离”之差,客观评估模型的复制倾向。实验显示,现有方法在此指标下呈现明显的线性关系,验证了技术瓶颈的普遍性。


WithAnyone的突破始于数据层面的革新。研究团队构建了包含五十万张多人合照的大规模数据集,并为每张照片中的每个人物配备了上百张不同角度、表情和光照的参考图像。此外,还有百万张未配对的合照数据纳入训练。这种高质量、多样化的数据基础,为模型学习身份不变性与场景变化性提供了关键支撑。


在模型架构方面,WithAnyone采用了多项创新设计:
1. 参考图像编码双通道:每个参考图像通过人脸识别网络提取身份判别向量,同时通过通用图像编码器捕获中层视觉特征。人脸嵌入仅作用于对应区域,有效避免跨脸信息泄露。
2. 对比式学习策略:通过拉近“同一身份但风格/姿态不同的样本”,推远“不同身份的样本”,结合大量负样本训练,使模型学会识别身份本质而非简单复制面部特征。
3. 多目标优化框架:在传统扩散/重构损失基础上,引入ID-contrastive损失与对齐真实数据的ID损失,平衡“相似性”与“变化性”的张力。

训练流程分为三个阶段:首先通过传统重建训练奠定基础能力;其次利用成对数据进行针对性训练;最后通过高质量数据微调优化模型性能。这种渐进式训练策略确保了模型在身份保持与场景生成之间的稳定平衡。

目前,WithAnyone已全面开源,提供代码、模型权重、数据集样例及MultiID-Bench评测基准。团队同步发布了ComfyUI版本,支持本地部署与个性化工作流定制。开源地址包括GitHub仓库、Hugging Face演示空间及项目主页,极大降低了技术使用门槛。

从技术影响看,WithAnyone的突破不仅体现在合照生成质量上,更在于其提出的评测框架与数据策略为行业树立了新标准。MultiID-Bench填补了多人场景下身份一致性评估的空白,而大规模配对数据集的构建思路也为后续研究提供了宝贵参考。

在实际应用层面,该技术可广泛应用于虚拟社交、数字娱乐、远程协作等场景。例如,在元宇宙环境中生成自然的多用户合影,为在线教育创建师生互动场景,或在影视制作中快速合成历史人物合照等。其开源特性更将加速社区创新,催生更多个性化生成应用。

展望未来,WithAnyone的成功验证了数据质量与训练策略在AI生成中的决定性作用。随着多模态大模型的发展,如何将此类技术整合到更广泛的创作流程中,实现文本、图像、视频的协同生成,将是下一阶段的研究重点。同时,伦理规范与隐私保护也需要同步加强,确保技术应用的健康发展。

复旦大学与阶跃星辰的这项合作,标志着AI人像生成从“复制粘贴”到“理解创造”的重要转变。WithAnyone不仅是一次技术突破,更是对AI如何理解人类社交场景的深刻探索。当机器学会让不同人物在虚拟空间中自然同框时,我们离真正智能的内容创作又近了一步。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7055
