谷歌DeepMind以Nano Banana Pro为底座,最新发布通用多模态视觉大模型Vision Banana ——
何恺明、谢赛宁 参与,证明图像生成预训练,可以成为通用视觉学习的统一范式 。
一个通用模型,零样本迁移下,击败SAM 3、Depth Anything 3等专用模型,分割、深度、法线核心任务刷新多项SOTA。
就像LLM用文本生成统一所有NLP任务一样,视觉领域的LLM时刻,可能真的来了。
谢赛宁表示,作为一个从像素级标注任务(例如分割、边缘、深度或表面法线)开始接触计算机视觉的人,看到这种成果会真切感受到:
领域正发生重大变革,Vision Banana将彻底改写这类视觉问题的解决方式。
用 “指令微调 + 生成接口” 统一全视觉任务
文生图、图像编辑等生成模型一路狂飙,画质越来越逼真、语义越来越精致,但学界始终悬着一个问题:
能精准创造视觉内容的模型,真的懂视觉世界吗?
这就好比NLP领域早期的质疑:能生成文本的模型,真的理解语言吗?
AI发展到现在,LLM用事实证明,生成预训练本身就是最好的理解训练。
语言模型在生成文本的过程中,自然学会了语法、语义、推理、知识。
那视觉领域呢?
过去的视觉研究,大多走判别式学习路线,监督判别学习、对比学习、自举学习、自编码……几乎都不属于生成式建模。
分类、检测、分割、深度估计各搞一套架构、各用一批数据,模型专精但不通用。
而Vision Banana的回答是:
图像生成模型早就悄悄学会了理解视觉世界,只是没人教它怎么把理解结果输出出来。
它彻底换了一条路:用生成式思路,把所有视觉感知任务统一成一件事。
Vision Banana以谷歌自研生成基座Nano Banana Pro为底座,仅用轻量指令微调 ,把分割、深度估计、表面法线等所有感知任务,统一成生成可解码RGB图像 这一件事。
具体实现分三步。
第一步,用自然语言提示指定输出格式。
Vision Banana继承了生成模型的多模态能力,能轻松听懂人话。
比如直接告诉它“猫用黄色 (255,255,0) 标记,背景用黑色”,或是给一段JSON颜色映射,它都能准确理解并执行。
这个能力直接来自Nano Banana Pro的多模态理解,生成模型在训练过程中学会了关联文本和图像,现在只需要教它把理解结果也输出成图像。
第二步,设计可反向解码的RGB编码。
所有感知结果(分割、深度、法线)都被编码成一张普通RGB图,而且编码是可逆的。
法线估计最简单,单位向量(−1到1)直接线性映射到RGB(0到255)。
语义分割更直观,每个类别指定一个颜色,模型生成涂色图,解码时通过颜色匹配聚类得到mask。
实例分割稍有不同,因为实例数量未知,无法在提示中预先分配颜色。Vision Banana采用逐类推理策略,每次只分割一个类别,模型自动给不同实例分配不同颜色。
最精巧的是深度估计,把无限大的深度值,先压缩映射到0~1区间,再对应到RGB颜色,做到一个深度值对应唯一颜色,一个颜色也能精准还原回深度值,没有信息损失。
第三步,轻量指令微调。
只需要在Nano Banana Pro原本的训练数据里,少量混入视觉任务数据,就能完成对齐。
这种轻量微调带来三大优势:
- 一套权重通吃所有任务,只需要换指令就能切换任务;
- 不需要大量新增标注数据,训练成本极低;
- 完全不损失原本的文生图、图像编辑能力。
在官方给出的实例中可以看出,模型通过文本提示为不同物体设定专属颜色编码,依靠色彩映射规则,生成对应的语义分割可视化图像。
那为什么这个思路有效呢?
就像生成式预训练在生成文本的过程中学会了语法和推理,图像生成模型在生成像素的过程中学会了物体边界、深度关系、几何结构。
这些表征一直存在于模型内部,只是没有合适的接口释放出来。
更重要的是,生成建模天然解决多模态问题。
很多视觉任务是一对多的。同一个输入,可能有多种合理的输出。
比如深度估计,一个像素的深度有内在模糊性。判别式模型为了避免输出模糊,需要设计专门的架构和loss。
SAM甚至只对一个mask施加loss,忽略其他候选。
而生成模型天然学习完整的数据分布。
LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。
Vision Banana 则证明:图像生成,可以成为视觉领域的统一接口。
2D+3D通吃
这套极简方案在权威基准上全面碾压专业模型,且全程零样本迁移 ——
训练时完全不碰测试集数据,深度估计连相机内参都不用。
首先,在2D理解上,语义分割mIoU 0.699,超越SAM 3;指代分割双双刷新零样本SOTA;实例分割与DINO-X持平,处于第一梯队。
然后,在3D理解上,Vision Banana打出了更让人意外的成绩,深度估计、法线估计双双刷新SOTA。
这里有个关键细节:Vision Banana训练和推理都不需要相机内参。
所有SOTA深度模型,DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2至少在训练时需要相机内参。
而Vision Banana纯靠视觉先验。
轻量微调完全没丢生成能力。
GenAI-Bench上对Nano Banana Pro胜率53.5%,ImgEdit上胜率47.8%。
Vision Banana在保持原生成模型能力的同时,把感知任务也吃下了。
一个模型,生成+理解,全都要。
就像NLP领域的生成式预训练路线改变了所有语言任务的实现方式,视觉领域可能正在迎来同样的范式转变。
团队介绍
Vision Banana整项工作共有25位研究者共同参与。
由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者共同领衔。
Valentin Gabeur ,Google DeepMind研究员,专攻多模态学习。Meta AI博士后出身,也是SAM 2的共同一作。
Inria博士,曾拿过CVPR 2020 Video Pentathlon挑战赛冠军。
有意思的是,他转行AI前是机械工程师,在工业自动化领域干了6年。
Shangbang Long,北京大学校友,Google DeepMind研究员,专攻识别、检测、分割。
CMU硕士出身,参与了Gemini Robotics、Genie 2等核心项目。
深耕OCR与文档场景理解,代表作TextSnake在场景文本检测领域极具影响力。
Songyou Peng(彭崧猷),西安交通大学校友,Google DeepMind研究科学家,长期深耕3D视觉方向。
负责了Gemini和Nano Banana多模态理解和生成,在NeRF、三维重建等领域产出多项高影响力成果。
此外,何恺明、谢赛宁作为Leadership Sponsors参与支持这项工作。
项目地址:https://vision-banana.github.io/
论文地址:https://arxiv.org/abs/2604.20329
参考链接:https://x.com/sainingxie/status/2047339789926429166
如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/
一键关注 👇 点亮星标科技前沿进展每日见
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31996

