GEMS:Agent-Native Multimodal Generation with Memory and Skills
当前的多模态生成模型虽然在主流任务上表现出色,但在处理复杂指令和下游任务时仍有不足。
近期,先进的智能体(Agent)框架(如OpenClaw、Claude Code)在复杂真实任务中展现出强大能力。受此启发,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,将智能体框架的成功经验引入多模态生成领域,提出了 GEMS(Agent-Native Multimodal Generation with Memory and Skills)。
该方法旨在激发较小模型的潜力,实验表明,其甚至能让参数量为6B的模型在部分任务上超越Nano Banana 2。


方法核心:GEMS框架
GEMS框架包含三大核心特性,旨在系统性地提升多模态生成模型处理复杂任务的能力。

1. Agent Loop(智能体循环)
引入一个结构化的多智能体协作框架,通过闭环迭代优化,确保生成结果逐步与指令对齐。
2. Agent Memory(智能体记忆)
采用分层压缩策略处理历史轨迹。该策略保留关键的事实性要素,同时将冗长的思维链(CoT)压缩为精炼的经验。这有效减少了Token开销,并提升了在长序列任务中历史指引的效率。
3. Agent Skill(智能体技能)
构建了一个可扩展的专家知识库(技能库)。系统可根据任务需求动态加载相应的详细指令,从而极大地扩展了模型的能力边界。
实验验证
研究团队在五个主流任务和四个下游任务上,基于不同的生成模型对GEMS进行了评估。


实验结果显示,基于Z-Image-Turbo模型,GEMS在主流任务上的平均性能提升了14.22%。在下游任务上,其表现超越了最佳基线模型8.92%,验证了该框架的有效性。
深入分析
研究团队进一步分析了GEMS各模块的贡献。

- 模块消融实验(左图):通过逐步引入Agent Loop、Agent Memory和Agent Skill模块,模型性能持续提升。值得注意的是,配备了完整GEMS框架的6B参数Z-Image-Turbo模型,在GenEval2基准上超越了Nano Banana 2。
- 记忆模块变体分析(右图):对比了不同记忆策略,证明了将思维链压缩为经验的有效性。

团队还分析了生成轮次(平均生图次数)与性能之间的权衡关系,展现了GEMS在效果与效率上的双重优势。

进一步的消融实验表明,Memory和Skill模块有效提升了迭代优化过程的质量,从而减少了完成任务所需的平均轮次。
技能模块的直观效果
GEMS的Agent Skills模块允许模型根据任务自主触发特定技能,显著改善生成质量。

- 案例1:山脉日出
- 无技能:山脉形态真实,但光影平淡,缺乏艺术感。
- 有技能:触发“美学绘画”技能后,光影层次丰富,画面更具美感。
- 案例2:漂浮的书
- 无技能:书本漂浮效果简单,创意不足。
- 有技能:触发“创意绘画”技能后,书页飞舞、星空点缀,整体氛围更梦幻。
这些案例直观展示了技能模块如何使生成结果不仅正确,而且更加生动、富有故事感。
总结
GEMS框架证明,智能体化的管理策略能够有效弥补基础模型能力的不足。通过赋予模型结构化的“循环”思维、“长时记忆”和按需调用的“技能”,即使是轻量级的开源模型也能在复杂任务中展现出媲美甚至超越更大规模闭源模型的潜力。这为未来多模态生成系统的演进提供了一个有价值的参考范式。
论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29778

