西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

你是否也经历过这样的困境:

论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力;

尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清;

好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。

这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。

现在,你可以将大段的文字材料直接交给 AutoFigure ,这是西湖大学团队推出的全新 智能体绘图框架

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

它能够一键理解 上万字 的论文、书籍或博客内容,自动生成高质量的 学术插图 供你使用。

更值得一提的是,其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越:生成的插图不再是静态的PNG图片,而是 细节可编辑的SVG文件(现在你可以在PPT里直接编辑了)。

目前,这项工作已入选 ICLR 2026。其代码、数据集和Web交互界面均已开源,并同步上线了 可一键使用的在线网站

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

背景:为什么AI以前画不好科学插图?

在学术绘图领域,一直存在两个极端:

1. 端到端派(如GPT-Image):审美在线,但逻辑经常出错,文字部分更是重灾区,容易出现无意义的幻觉字符。

2. 文本到代码派(如TikZ/SVG生成):逻辑严密,但视觉效果往往缺乏美感,像是上个世纪的教科书插图。

AutoFigure 提出了 “推理式渲染” 范式:将“逻辑布局”和“美化渲染”这两个步骤彻底分离。

技术方案:模拟资深设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure架构图(由AutoFigure生成,未经修改)

第一步:概念基础(构建逻辑骨架)

AI读入你长达万词的文字材料,自动提取其中的实体和关系,生成一个结构正确但较为粗糙的布局(SVG/HTML代码)。

第二步:评审与优化(智能体闭环迭代)

模拟人类设计师与需求方的反复沟通,对图片布局进行迭代优化:

  • AI设计师 负责根据反馈修改布局。
  • AI评审员 则负责指出问题(例如“箭头重叠了”、“布局重心不稳”),直到达到满意的绘图质量。

第三步:美学渲染与“擦除-修正”

在最终美化阶段,AutoFigure首先将布局渲染为一张精美的图片。随后,为了解决当前AIGC生成图片时文字变形的问题,保证图片中文字的正确性,AutoFigure引入了专门的 “擦除-修正” 策略:用OCR识别模糊字符,将它们“抠掉”,再重新覆盖上清晰的矢量文本。

AutoFigure-Edit:将AI生成图装进PPT

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit流程图(由AutoFigure-Edit生成)

在最新版本 AutoFigure-Edit 中,西湖大学团队更进一步,引入了 SAM3自动抠图 技术,包括:

  • 利用Meta最新的SAM3技术识别图中的图标。
  • 配合 RMBG-2.0 自动去除背景。
  • 矢量重组: 将这些处理干净的图标重新置入生成的SVG模板中。

最终,你得到的是一个可以在浏览器内置编辑器里 直接拖拽、修改文字、更换颜色 的动态画布,能够按照你的想法对图片细节进行更改。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
基于AutoFigure-Edit的在线画布
西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit渲染过程示例图

人类实验结果:66.7%的专家认为其达到出版级标准!

为了验证AutoFigure的效果,团队构建了全球首个大规模科学插图基准—— FigureBench

规模宏大: 涵盖3,300个高质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本类型。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
FigureBench数据集介绍

优势显著: 在逻辑清晰度和准确度上,AutoFigure的优势极大,在教科书类任务中胜率甚至高达 97.5%

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
在FigureBench上的实验结果

更具说服力的是 人类专家盲测:10位论文一作对生成的图片进行评审,结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了出版级标准。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
人类专家评价结果

接下来,我们通过几个案例直观感受一下。

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的生物机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的材料机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的综述图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的教科书图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

项目价值:AI科学家的“最后一块拼图”

插图不仅是视觉补充,更是阐述复杂科学概念的桥梁。AutoFigure的出现,意味着:

1. 赋能AI科学家: 这是AI实现从文本理解到绘图生成全流程自主研究的关键一步。

2. 应用范围广泛: 无论是流程图、算法示意图,还是复杂的教科书插图,它都能胜任。

项目资源:

  • GitHub:https://github.com/ResearAI/AutoFigure-Edit
  • 论文:https://arxiv.org/abs/2602.03828v1
  • HuggingFace:https://huggingface.co/datasets/WestlakeNLP/FigureBench
  • 在线网站:https://deepscientist.cc

项目说明:

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长。他著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学家项目)等工作。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22110

(0)
上一篇 2026年2月22日 下午6:26
下一篇 2026年2月22日 下午6:51

相关推荐

  • ChatGPT Images 2.0正式发布:一句话生成以假乱真的截图和海报

    比 Nano Banana 更超神的 GPT-Image-2,刚刚正式发布! 请注意,这不是截图,这不是截图: 输入提示词“生成一张和 GPT 的对话截图”,你就能得到: 再看一眼这样的 TikTok 短视频截图: 这谁还能分得清是真是假?关键是 没给参考图,提示词也非常简短:生成一张 TikTok 的妆教视频截图。 官方给出的产品正式名称是 ChatGPT…

    2026年4月22日
    51000
  • OpenClaw重磅更新:Skills安装不再迷茫,控制台界面全面优化,安全漏洞彻底修复

    OpenClaw 恢复了高频更新节奏。本次更新内容并非简单的错误修复,更新日志的篇幅也反映了此次变动的分量。其中几项关键改进值得重点关注。 Skills 安装与管理体验显著提升 此次更新对 Skills 的安装与管理流程进行了大幅优化,对普通用户而言感知最为直接。 1. 一键安装配方针对内置的常用 Skills(如 coding-agent、gh-issue…

    2026年3月27日
    76400
  • GitHub Star 数最多的 10+ 款开源无代码 AI 工具

    不久之前,用 AI 构建任何东西通常只有两种可能: 你是一名机器学习工程师 或者你根本就做不出来 现在,这一切变得非常不同。 今天,No‑Code AI 工具让开发者、创业者、设计师,甚至非技术团队都能构建严肃的 AI 产品——无需编写复杂的 ML 管道或从零训练模型。 但有个关键点:大多数榜单都聚焦于付费 SaaS 工具。这篇不是。 本文专注于开源 No‑…

    2025年12月25日
    86800
  • 6款AI驱动的开源CLI工具:让终端开发更智能高效

    如果你大部分时间都在终端里工作,你一定知道一个得心应手的命令能省下数小时的工夫。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

    2026年1月2日
    84700
  • Kimi 2.6震撼发布:最强开源Agentic Coding模型,Vibe Coding审美拉满,Agent集群可调度300子Agent

    Kimi 2.6 正式发布,带来了在代码生成、长程任务执行和原生视觉理解方面的显著增强。 在多项高难度基准测试中,例如考察综合软件工程能力的“人类最后的考试”,Kimi 2.6 均取得了领先的成绩,其表现与 GPT-4o、Claude 3.5 Sonnet 等顶尖闭源模型持平甚至更优。 本次更新并非简单的功能迭代,而是 Kimi 在 AI 智能体(Agent…

    2026年4月21日
    1.4K00