GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

GEMS:Agent-Native Multimodal Generation with Memory and Skills

当前的多模态生成模型虽然在主流任务上表现出色,但在处理复杂指令和下游任务时仍有不足。

近期,先进的智能体(Agent)框架(如OpenClaw、Claude Code)在复杂真实任务中展现出强大能力。受此启发,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,将智能体框架的成功经验引入多模态生成领域,提出了 GEMS(Agent-Native Multimodal Generation with Memory and Skills)。

该方法旨在激发较小模型的潜力,实验表明,其甚至能让参数量为6B的模型在部分任务上超越Nano Banana 2。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一
GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

方法核心:GEMS框架

GEMS框架包含三大核心特性,旨在系统性地提升多模态生成模型处理复杂任务的能力。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

1. Agent Loop(智能体循环)
引入一个结构化的多智能体协作框架,通过闭环迭代优化,确保生成结果逐步与指令对齐。

2. Agent Memory(智能体记忆)
采用分层压缩策略处理历史轨迹。该策略保留关键的事实性要素,同时将冗长的思维链(CoT)压缩为精炼的经验。这有效减少了Token开销,并提升了在长序列任务中历史指引的效率。

3. Agent Skill(智能体技能)
构建了一个可扩展的专家知识库(技能库)。系统可根据任务需求动态加载相应的详细指令,从而极大地扩展了模型的能力边界。

实验验证

研究团队在五个主流任务和四个下游任务上,基于不同的生成模型对GEMS进行了评估。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一
GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

实验结果显示,基于Z-Image-Turbo模型,GEMS在主流任务上的平均性能提升了14.22%。在下游任务上,其表现超越了最佳基线模型8.92%,验证了该框架的有效性。

深入分析

研究团队进一步分析了GEMS各模块的贡献。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

  • 模块消融实验(左图):通过逐步引入Agent Loop、Agent Memory和Agent Skill模块,模型性能持续提升。值得注意的是,配备了完整GEMS框架的6B参数Z-Image-Turbo模型,在GenEval2基准上超越了Nano Banana 2。
  • 记忆模块变体分析(右图):对比了不同记忆策略,证明了将思维链压缩为经验的有效性。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

团队还分析了生成轮次(平均生图次数)与性能之间的权衡关系,展现了GEMS在效果与效率上的双重优势。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

进一步的消融实验表明,Memory和Skill模块有效提升了迭代优化过程的质量,从而减少了完成任务所需的平均轮次。

技能模块的直观效果

GEMS的Agent Skills模块允许模型根据任务自主触发特定技能,显著改善生成质量。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

  • 案例1:山脉日出
    • 无技能:山脉形态真实,但光影平淡,缺乏艺术感。
    • 有技能:触发“美学绘画”技能后,光影层次丰富,画面更具美感。
  • 案例2:漂浮的书
    • 无技能:书本漂浮效果简单,创意不足。
    • 有技能:触发“创意绘画”技能后,书页飞舞、星空点缀,整体氛围更梦幻。

这些案例直观展示了技能模块如何使生成结果不仅正确,而且更加生动、富有故事感。

总结

GEMS框架证明,智能体化的管理策略能够有效弥补基础模型能力的不足。通过赋予模型结构化的“循环”思维、“长时记忆”和按需调用的“技能”,即使是轻量级的开源模型也能在复杂任务中展现出媲美甚至超越更大规模闭源模型的潜力。这为未来多模态生成系统的演进提供了一个有价值的参考范式。

论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29778

(0)
上一篇 2026年4月11日 下午1:40
下一篇 2026年4月11日 下午1:46

相关推荐

  • 五天五版本!OpenClaw(龙虾)AI助手火力全开,记忆系统重构、安全加固、视频生成密集迭代

    五天五版本:OpenClaw AI 助手密集迭代,重构记忆与安全防线 很少见到将更新日期作为版本号的 AI 框架,OpenClaw(龙虾)便是其中之一。 在短短五天内,从 v2026.4.7 到 v2026.4.11,这款开源个人 AI 助手在 GitHub 上完成了一轮“火力全开”的密集迭代。记忆系统重构、安全加固、视频生成接入、本地语音推理……几乎每个版…

    2026年4月12日
    1.3K00
  • 开源桌面虚拟同事Open Cowork:让AI像人一样操作电脑,实现任务闭环

    当 AI 智能体逐渐走出对话框,真正的挑战已不再是“回答得多聪明”,而是能否像人一样完成任务的闭环:看懂屏幕、点击按钮、填写表单、整理文件、生成交付物,并将结果同步回团队协作系统。 我们开源的 Open Cowork,正是一次面向“桌面端虚拟同事”的实践。它支持一键安装、无需编写代码,让模型在安全沙箱中操作你的工作空间,既能生成 PPT、Word、Excel…

    2026年3月1日
    97400
  • Star-Office-UI:让AI打工人在像素办公室“摸鱼”和“面壁”

    Star-Office-UI:将AI工作状态可视化的像素办公室 Star-Office-UI 是一个为AI团队设计的开源可视化状态看板。它将AI Agent在后台运行的抽象工作状态,具象化为一个复古像素风格办公室中活动的角色,从而实现了工作状态的实时、游戏化监控。 项目概述 该项目本质上是一个面向OpenClaw等多智能体框架的可视化状态面板,其独特之处在于…

    2026年3月8日
    86400
  • AI 驱动的屏幕活动自动追踪神器 Dayflow:开源工具助你优化工作节奏与时间管理

    Dayflow:AI 驱动的屏幕活动自动追踪工具 Dayflow 是一款开源的原生 macOS 应用,能够自动记录用户的屏幕活动,并通过 AI 分析生成清晰的可视化时间轴报告,帮助优化工作节奏与时间管理。 开源项目简介 Dayflow 基于 SwiftUI 开发。安装后,它会以每秒 1 帧的频率进行轻量级屏幕录制,并每 15 分钟将最近的录制内容发送给 AI…

    2025年11月11日
    36900
  • 开源24小时狂揽3.5万Star!Rust打造AI终端Warp,重新定义开发者工作流

    开源仅24小时便斩获3.5万Star。 如今总Star数已突破5万,这个名为Warp的项目,是用Rust语言从零构建的AI终端。 准确来说,它已超越传统终端的范畴,官方将其定位为Agentic Development Environment(智能体开发环境)。 它还被《时代》周刊评为2025年最佳发明之一,OpenAI则是该开源仓库的创始赞助商。 01 开源…

    2026年5月2日
    28500