谷歌DeepMind发布Vision Banana:图像生成预训练统一视觉感知任务

谷歌DeepMind以Nano Banana Pro为底座,最新发布通用多模态视觉大模型Vision Banana ——

何恺明、谢赛宁 参与,证明图像生成预训练,可以成为通用视觉学习的统一范式

一个通用模型,零样本迁移下,击败SAM 3、Depth Anything 3等专用模型,分割、深度、法线核心任务刷新多项SOTA。

就像LLM用文本生成统一所有NLP任务一样,视觉领域的LLM时刻,可能真的来了。

谢赛宁表示,作为一个从像素级标注任务(例如分割、边缘、深度或表面法线)开始接触计算机视觉的人,看到这种成果会真切感受到:

领域正发生重大变革,Vision Banana将彻底改写这类视觉问题的解决方式。

用 “指令微调 + 生成接口” 统一全视觉任务

文生图、图像编辑等生成模型一路狂飙,画质越来越逼真、语义越来越精致,但学界始终悬着一个问题:

能精准创造视觉内容的模型,真的懂视觉世界吗?

这就好比NLP领域早期的质疑:能生成文本的模型,真的理解语言吗?

AI发展到现在,LLM用事实证明,生成预训练本身就是最好的理解训练。

语言模型在生成文本的过程中,自然学会了语法、语义、推理、知识。

那视觉领域呢?

过去的视觉研究,大多走判别式学习路线,监督判别学习、对比学习、自举学习、自编码……几乎都不属于生成式建模。

分类、检测、分割、深度估计各搞一套架构、各用一批数据,模型专精但不通用。

而Vision Banana的回答是:

图像生成模型早就悄悄学会了理解视觉世界,只是没人教它怎么把理解结果输出出来。

它彻底换了一条路:用生成式思路,把所有视觉感知任务统一成一件事。

Vision Banana以谷歌自研生成基座Nano Banana Pro为底座,仅用轻量指令微调 ,把分割、深度估计、表面法线等所有感知任务,统一成生成可解码RGB图像 这一件事。

具体实现分三步。

第一步,用自然语言提示指定输出格式。

Vision Banana继承了生成模型的多模态能力,能轻松听懂人话。

比如直接告诉它“猫用黄色 (255,255,0) 标记,背景用黑色”,或是给一段JSON颜色映射,它都能准确理解并执行。

这个能力直接来自Nano Banana Pro的多模态理解,生成模型在训练过程中学会了关联文本和图像,现在只需要教它把理解结果也输出成图像。

第二步,设计可反向解码的RGB编码。

所有感知结果(分割、深度、法线)都被编码成一张普通RGB图,而且编码是可逆的。

法线估计最简单,单位向量(−1到1)直接线性映射到RGB(0到255)。

语义分割更直观,每个类别指定一个颜色,模型生成涂色图,解码时通过颜色匹配聚类得到mask。

实例分割稍有不同,因为实例数量未知,无法在提示中预先分配颜色。Vision Banana采用逐类推理策略,每次只分割一个类别,模型自动给不同实例分配不同颜色。

最精巧的是深度估计,把无限大的深度值,先压缩映射到0~1区间,再对应到RGB颜色,做到一个深度值对应唯一颜色,一个颜色也能精准还原回深度值,没有信息损失。

第三步,轻量指令微调。

只需要在Nano Banana Pro原本的训练数据里,少量混入视觉任务数据,就能完成对齐。

这种轻量微调带来三大优势:

  • 一套权重通吃所有任务,只需要换指令就能切换任务;
  • 不需要大量新增标注数据,训练成本极低;
  • 完全不损失原本的文生图、图像编辑能力。

在官方给出的实例中可以看出,模型通过文本提示为不同物体设定专属颜色编码,依靠色彩映射规则,生成对应的语义分割可视化图像。

那为什么这个思路有效呢?

就像生成式预训练在生成文本的过程中学会了语法和推理,图像生成模型在生成像素的过程中学会了物体边界、深度关系、几何结构。

这些表征一直存在于模型内部,只是没有合适的接口释放出来。

更重要的是,生成建模天然解决多模态问题。

很多视觉任务是一对多的。同一个输入,可能有多种合理的输出。

比如深度估计,一个像素的深度有内在模糊性。判别式模型为了避免输出模糊,需要设计专门的架构和loss。

SAM甚至只对一个mask施加loss,忽略其他候选。

而生成模型天然学习完整的数据分布。

LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。

Vision Banana 则证明:图像生成,可以成为视觉领域的统一接口。

2D+3D通吃

这套极简方案在权威基准上全面碾压专业模型,且全程零样本迁移 ——

训练时完全不碰测试集数据,深度估计连相机内参都不用。

首先,在2D理解上,语义分割mIoU 0.699,超越SAM 3;指代分割双双刷新零样本SOTA;实例分割与DINO-X持平,处于第一梯队。

然后,在3D理解上,Vision Banana打出了更让人意外的成绩,深度估计、法线估计双双刷新SOTA。

这里有个关键细节:Vision Banana训练和推理都不需要相机内参。

所有SOTA深度模型,DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2至少在训练时需要相机内参。

而Vision Banana纯靠视觉先验。

轻量微调完全没丢生成能力。

GenAI-Bench上对Nano Banana Pro胜率53.5%,ImgEdit上胜率47.8%。

Vision Banana在保持原生成模型能力的同时,把感知任务也吃下了。

一个模型,生成+理解,全都要。

就像NLP领域的生成式预训练路线改变了所有语言任务的实现方式,视觉领域可能正在迎来同样的范式转变。

团队介绍

Vision Banana整项工作共有25位研究者共同参与。

由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者共同领衔。

Valentin Gabeur ,Google DeepMind研究员,专攻多模态学习。Meta AI博士后出身,也是SAM 2的共同一作。

Inria博士,曾拿过CVPR 2020 Video Pentathlon挑战赛冠军。

有意思的是,他转行AI前是机械工程师,在工业自动化领域干了6年。

Shangbang Long,北京大学校友,Google DeepMind研究员,专攻识别、检测、分割。

CMU硕士出身,参与了Gemini Robotics、Genie 2等核心项目。

深耕OCR与文档场景理解,代表作TextSnake在场景文本检测领域极具影响力。

Songyou Peng(彭崧猷),西安交通大学校友,Google DeepMind研究科学家,长期深耕3D视觉方向。

负责了Gemini和Nano Banana多模态理解和生成,在NeRF、三维重建等领域产出多项高影响力成果。

此外,何恺明、谢赛宁作为Leadership Sponsors参与支持这项工作。

项目地址:https://vision-banana.github.io/
论文地址:https://arxiv.org/abs/2604.20329
参考链接:https://x.com/sainingxie/status/2047339789926429166

如果你正在做,或见证着这些变化,欢迎申报。

让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标科技前沿进展每日见


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31996

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • GAN之父Ian Goodfellow携NLP先驱Chris Manning重磅发声:符号化表示与游戏数据,构建多模态世界模型的最佳路径

    沉寂许久的 Ian Goodfellow,终于再次现身。 这位提出生成对抗网络(GAN)的研究者,曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中,Goodfellow 的公开声音却并不多见。 直到最近,他与 NLP 先驱 Chris Manning 等人共同发表了一篇文章,探讨了构建多模态世界模型的新路径。 文章的…

    2026年3月8日
    23200
  • 告别并行编程烦恼:Joblib如何让Python多进程变得优雅高效

    深夜,当办公室的灯光一盏盏熄灭,总有一块屏幕还在固执地亮着。 一位数据科学家靠在椅背上,目光紧盯着那条几乎停滞的进度条。数据集不大,机器也不差,问题在于 Python 正在忠实地、一个接一个地执行任务。 许多开发者都经历过这样的时刻。此时,“并行处理”的念头极具诱惑力——直到你真正尝试使用 Python 自带的 multiprocessing 模块,才发现它…

    2025年12月2日
    35000
  • VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

    本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

    2025年12月23日
    33900
  • GLM-5.1-Turbo实测:开源第一模型如何用1小时开发完整应用并处理10万条数据

    GLM-5.1-Turbo 发布后不久,智谱的 Coding Plan 服务便宣布了对该模型的支持。 我随即在 Claude Code 中切换至 GLM-5.1 模型进行了深度体验。经过数日的密集测试,我发现 GLM-5.1 并非一次简单的迭代升级,其能力,尤其是在处理长程任务方面,表现出了显著的代际跨越。 根据 Artificial Analysis、SW…

    2026年4月2日
    85200
  • JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

    长期以来,AI领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。 传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中效率低下。 为了打破这一僵局,研究者们提出了“世界模型”这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来…

    2026年1月3日
    29700