PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

你负责写方法,AI负责画 Figure。科研打工人,终于等来「画图解放日」。

还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗?

一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。

既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。

看起来只是一张图,实际上是美学、逻辑和耐心的三重折磨。

那么,问题来了:现在的大模型已经能写论文、跑实验、改代码,为什么偏偏搞不定这些学术插图?有人可能会问:DALL·E、基础 VLM 不行吗?

答案是:真不行。

它们画出来的图往往是:模块和文字对不上、字体直接乱码、箭头逻辑错误。图是「好看」,但不中用啊。

于是,一个狠角色出现了:PaperBanana 🍌

来自北大 + Google Cloud AI Research 的团队,目标很简单也很狂:你写方法,AI 画 Figure,水准呢?直接投顶会的那种。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成 PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成 PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成 PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

来看效果成色。

PaperBanana 展示了解决两类学术插图的能力:

第一类,是论文方法流程图与模型结构示意图,用来说明算法如何运作(左);第二类,是统计图表,用来表达实验结果与数据对比(右边)。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成 左边是方法框图(Methodology Diagrams),右边是统计图(Statistical Plots)

与以往 「只会画图像」的生成模型不同,PaperBanana 强调两点:不是只要「画得好看」,而是必须「画得正确」。

它要保证:模块之间的逻辑关系不出错、数据表达符合科研规范、图可以直接服务论文叙事,而不是装饰。

研究指出,PaperBanana 可以覆盖多种常见学术插图类型,包括方法流程图、模型结构示意图、概念性框架图,以及通过代码驱动生成的高精度统计图。

PaperBanana 不仅能从零生成,还能润色你现有的丑图。

给它一张草图或初版框图,它负责自动美化、重排布局、统一风格,让它更像顶会论文里的标准图形。

更直观的对比——

左侧是手工绘制的插图,右侧是 PaperBanana 风格增强(Style Enhanced)后的版本。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

这些示例覆盖了多个典型科研场景,包括 Transformer 与不同 LayerNorm 变体的对比示意、工程流程与三维建模管线的系统框架,以及强化学习和表示学习中抽象几何关系的表达。它们的共同特点在于逻辑复杂、元素密集,对人工排版提出了极高要求,也正是科研人员最容易在“画图”上消耗大量时间与精力的部分。

语义结构上一致,但视觉呈现,完全不同。

原始图信息完整,却给人一种「能看懂,但不好看」的感觉:布局略显松散,配色偏向单一,不同模块之间的层级关系也不够清晰。

PaperBanana 润色增后,图中的逻辑被重新梳理进一套更规范的视觉体系之中。

不同功能模块通过颜色进行区分,虚线和分区框用来强化层次结构,箭头的走向也更加明确,整体观感明显更接近顶会论文中常见的标准范式。

再看下面的图例,同一张图对比,高低立判。

人类画的图,对,但不一定好看。

未经调教的原始模型生成(Nano-Banana-Pro),画出来但难读。

PaperBanana 真正做到了「画清楚、讲明白」,也更符合顶会审美的论文级插图:配色更现代统一,信息更精炼,模块分区更清晰。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

那么,它是如何做到这一点的?

PaperBanana 「画论文图」变成了一条由多智能体协作完成的流水线。

系统先检索参考范例,再规划结构化描述,并在审美规范约束下生成初稿;

随后由视觉代理将文本描述转化为图像或代码绘图,评论代理不断对照原始论文内容进行纠错与打磨。

经过多轮迭代后,输出的不再是普通示意图,而是一张同时满足语义正确性与顶会审美标准的论文级插图。

这不是简单的作图自动化,而是一种「科研表达方式」的自动规范化。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

研究人员还顺带对比了两种路线:直接让模型「画图」 VS 让模型「写代码画图」。

结论很扎心:AI 直接画出来的图虽然精美,但经常在数字上胡说八道。

目前最靠谱的方式还是:AI 写绘图代码(基于 Gemini-3-Pro),再生成统计图。

PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成

这只是开始。类似工具已经开始出现,比如:Claude Scientific Writer,集成论文写作 + 插图 + 图表生成。

未来科研可能变成这样:你不用再在 PPT 里对齐箭头、调颜色、拖文本框到凌晨三点,而是把更多时间留给真正重要的事情。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20374

(0)
上一篇 2026年2月5日 下午12:07
下一篇 2026年2月5日 下午12:20

相关推荐

  • 中国AI研究员为何让美国同行羡慕?36小时北京行揭示文化差异

    中国AI研究员为何让美国同行羡慕?36小时北京行揭示文化差异 “中国AI研究员的性格、魅力和真诚……让人倍感亲切。” 这是艾伦研究所(Ai2)的研究员Nathan Lambert,在结束最近的中国之行后,发自内心的一番感慨。 在Nathan看来,国内的LLM圈子简直如同天堂——大家彼此尊重,即便立场不同也客客气气。反观大洋彼岸的“御三家”,他突然有些“没眼看…

    2026年5月8日
    16400
  • 从虚拟生成到真实复刻:如视Argus 1.0如何用空间大模型重构物理世界

    在人工智能领域,世界模型(World Model)近期成为炙手可热的研究方向,多个顶尖实验室相继展示出仅凭单张图片或简短文字描述即可生成交互式3D虚拟世界的惊人演示。这些成果无疑彰显了AI在内容生成方面的巨大潜力,引发行业广泛关注。然而,一个根本性问题随之浮现:这些由模型“想象”出的虚拟世界,其构成元素大多源于数据训练中的模式学习与合成,缺乏对真实物理空间的…

    2025年11月19日
    46200
  • 美团CatPaw AI IDE深度解析:从内部工具到外部产品的AI编程革命

    在AI编程工具竞争日益激烈的当下,美团最新推出的CatPaw AI IDE引起了业界广泛关注。这款代号为“猫爪”的智能集成开发环境,不仅代表了美团在AI技术应用领域的重要布局,更折射出中国科技企业在AI原生工具开发上的创新路径。本文将从技术架构、功能特性、市场定位及行业影响等多个维度,对CatPaw进行全面剖析。 从技术架构层面分析,CatPaw的核心创新在…

    2025年11月10日
    46800
  • 突破文本桎梏:C2C通信范式如何重塑多智能体协作效率

    随着大语言模型在代码生成、数学推理、视觉理解及边缘计算等垂直领域的深度渗透,多智能体系统正成为处理复杂场景任务的关键架构。传统基于文本对话(Text-to-Text,T2T)的协作模式,虽在基础任务中表现尚可,却在面对高维语义传递时暴露出根本性缺陷:信息在文本压缩过程中大量流失、自然语言固有的模糊性导致指令歧义、以及逐token生成机制引发的通信延迟。这些瓶…

    2025年10月29日
    37100
  • 人类数据革命:灵初智能如何用10万小时操作数据训练机器人

    2026年,“世界模型”已成为具身智能领域最炙手可热的概念之一。众多企业纷纷将自身技术路线标榜为“机器人世界模型”,试图借助可学习的环境模型来大幅提升机器人的训练效率。 灵初智能(PsiBot)也常被归入这一叙事框架。然而,在灵初联合创始人陈源培看来,世界模型并非灵初的核心追求,它仅仅是服务于数据迁移的一种工具。“我认为做世界模型不算转型。世界模型只是一个工…

    1天前
    8500