GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

GEMS:Agent-Native Multimodal Generation with Memory and Skills

当前的多模态生成模型虽然在主流任务上表现出色,但在处理复杂指令和下游任务时仍有不足。

近期,先进的智能体(Agent)框架(如OpenClaw、Claude Code)在复杂真实任务中展现出强大能力。受此启发,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,将智能体框架的成功经验引入多模态生成领域,提出了 GEMS(Agent-Native Multimodal Generation with Memory and Skills)。

该方法旨在激发较小模型的潜力,实验表明,其甚至能让参数量为6B的模型在部分任务上超越Nano Banana 2。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一
GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

方法核心:GEMS框架

GEMS框架包含三大核心特性,旨在系统性地提升多模态生成模型处理复杂任务的能力。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

1. Agent Loop(智能体循环)
引入一个结构化的多智能体协作框架,通过闭环迭代优化,确保生成结果逐步与指令对齐。

2. Agent Memory(智能体记忆)
采用分层压缩策略处理历史轨迹。该策略保留关键的事实性要素,同时将冗长的思维链(CoT)压缩为精炼的经验。这有效减少了Token开销,并提升了在长序列任务中历史指引的效率。

3. Agent Skill(智能体技能)
构建了一个可扩展的专家知识库(技能库)。系统可根据任务需求动态加载相应的详细指令,从而极大地扩展了模型的能力边界。

实验验证

研究团队在五个主流任务和四个下游任务上,基于不同的生成模型对GEMS进行了评估。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一
GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

实验结果显示,基于Z-Image-Turbo模型,GEMS在主流任务上的平均性能提升了14.22%。在下游任务上,其表现超越了最佳基线模型8.92%,验证了该框架的有效性。

深入分析

研究团队进一步分析了GEMS各模块的贡献。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

  • 模块消融实验(左图):通过逐步引入Agent Loop、Agent Memory和Agent Skill模块,模型性能持续提升。值得注意的是,配备了完整GEMS框架的6B参数Z-Image-Turbo模型,在GenEval2基准上超越了Nano Banana 2。
  • 记忆模块变体分析(右图):对比了不同记忆策略,证明了将思维链压缩为经验的有效性。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

团队还分析了生成轮次(平均生图次数)与性能之间的权衡关系,展现了GEMS在效果与效率上的双重优势。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

进一步的消融实验表明,Memory和Skill模块有效提升了迭代优化过程的质量,从而减少了完成任务所需的平均轮次。

技能模块的直观效果

GEMS的Agent Skills模块允许模型根据任务自主触发特定技能,显著改善生成质量。

GEMS:让6B小模型超越Nano Banana 2!多模态生成新范式,Agent+记忆+技能三合一

  • 案例1:山脉日出
    • 无技能:山脉形态真实,但光影平淡,缺乏艺术感。
    • 有技能:触发“美学绘画”技能后,光影层次丰富,画面更具美感。
  • 案例2:漂浮的书
    • 无技能:书本漂浮效果简单,创意不足。
    • 有技能:触发“创意绘画”技能后,书页飞舞、星空点缀,整体氛围更梦幻。

这些案例直观展示了技能模块如何使生成结果不仅正确,而且更加生动、富有故事感。

总结

GEMS框架证明,智能体化的管理策略能够有效弥补基础模型能力的不足。通过赋予模型结构化的“循环”思维、“长时记忆”和按需调用的“技能”,即使是轻量级的开源模型也能在复杂任务中展现出媲美甚至超越更大规模闭源模型的潜力。这为未来多模态生成系统的演进提供了一个有价值的参考范式。

论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29778

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

  • 3个GitHub开源神器:网页打包APP、私人时光机、极简番茄钟

    快速把网页打包成 APP 这个名为 PakePlus 的 GitHub 开源项目已获得 6.5K Star。它是一个能将常用网站(如 YouTube、小红书)或个人网页项目,快速打包成独立、小巧的桌面或移动端应用的工具。 它支持在 macOS、Windows、Linux 以及 Android 和 iOS 系统上安装使用。 PakePlus 体积小巧(小于 5…

    2025年11月13日
    30600
  • Star-Office-UI:让AI打工人在像素办公室“摸鱼”和“面壁”

    Star-Office-UI:将AI工作状态可视化的像素办公室 Star-Office-UI 是一个为AI团队设计的开源可视化状态看板。它将AI Agent在后台运行的抽象工作状态,具象化为一个复古像素风格办公室中活动的角色,从而实现了工作状态的实时、游戏化监控。 项目概述 该项目本质上是一个面向OpenClaw等多智能体框架的可视化状态面板,其独特之处在于…

    2026年3月8日
    54800
  • GitHub开源项目:Nano Banana Pro提示词库与Chrome插件集成,解锁300+创意玩法

    最近,Nano Banana Pro 在各大社交媒体平台引发了广泛关注。一个在 GitHub 上新近开源的项目,系统地收集并整理了来自这些平台的有趣 Nano Banana Pro 提示词。 目前,该提示词库已收录近 300 个精选提示词。项目开发者还配套开发了一款 Chrome 插件,当用户使用 Google 的 AI Studio 或 Gemini 时,…

    2025年11月29日
    22000
  • UniScientist:30B参数开源模型实现科研闭环,匹敌百亿级闭源模型

    多数大模型能够生成“看起来像”学术研究的文本,但极少能真正执行研究过程——即提出假设、收集证据、执行可复现的推导,并通过迭代验证形成可靠结论。 近期,发布了BabyVision评测基准(该基准已被多个重要模型采纳)的UniPat AI,在其最新博客《UniScientist: Advancing Universal Scientific Research I…

    2026年3月9日
    33500
  • 开源AI伴侣AIRI爆火GitHub:永不“下播”的赛博老婆,还能陪你打游戏

    AIRI:开源AI伴侣项目在GitHub引发关注 近日,一个名为 AIRI 的开源项目登上GitHub热榜。该项目旨在构建一个可实时交互、具备游戏陪伴能力的AI数字伴侣,因其“永不中断”的在线特性受到开发者社区关注。 AIRI的设计灵感来源于知名虚拟主播Neuro-sama,其核心特点是支持 自托管。这意味着用户可以在本地部署并运行该AI,只要主机保持运行,…

    2026年3月4日
    2.4K00