西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

你是否也经历过这样的困境:

论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力;

尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清;

好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。

这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。

现在,你可以将大段的文字材料直接交给 AutoFigure ,这是西湖大学团队推出的全新 智能体绘图框架

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

它能够一键理解 上万字 的论文、书籍或博客内容,自动生成高质量的 学术插图 供你使用。

更值得一提的是,其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越:生成的插图不再是静态的PNG图片,而是 细节可编辑的SVG文件(现在你可以在PPT里直接编辑了)。

目前,这项工作已入选 ICLR 2026。其代码、数据集和Web交互界面均已开源,并同步上线了 可一键使用的在线网站

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

背景:为什么AI以前画不好科学插图?

在学术绘图领域,一直存在两个极端:

1. 端到端派(如GPT-Image):审美在线,但逻辑经常出错,文字部分更是重灾区,容易出现无意义的幻觉字符。

2. 文本到代码派(如TikZ/SVG生成):逻辑严密,但视觉效果往往缺乏美感,像是上个世纪的教科书插图。

AutoFigure 提出了 “推理式渲染” 范式:将“逻辑布局”和“美化渲染”这两个步骤彻底分离。

技术方案:模拟资深设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure架构图(由AutoFigure生成,未经修改)

第一步:概念基础(构建逻辑骨架)

AI读入你长达万词的文字材料,自动提取其中的实体和关系,生成一个结构正确但较为粗糙的布局(SVG/HTML代码)。

第二步:评审与优化(智能体闭环迭代)

模拟人类设计师与需求方的反复沟通,对图片布局进行迭代优化:

  • AI设计师 负责根据反馈修改布局。
  • AI评审员 则负责指出问题(例如“箭头重叠了”、“布局重心不稳”),直到达到满意的绘图质量。

第三步:美学渲染与“擦除-修正”

在最终美化阶段,AutoFigure首先将布局渲染为一张精美的图片。随后,为了解决当前AIGC生成图片时文字变形的问题,保证图片中文字的正确性,AutoFigure引入了专门的 “擦除-修正” 策略:用OCR识别模糊字符,将它们“抠掉”,再重新覆盖上清晰的矢量文本。

AutoFigure-Edit:将AI生成图装进PPT

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit流程图(由AutoFigure-Edit生成)

在最新版本 AutoFigure-Edit 中,西湖大学团队更进一步,引入了 SAM3自动抠图 技术,包括:

  • 利用Meta最新的SAM3技术识别图中的图标。
  • 配合 RMBG-2.0 自动去除背景。
  • 矢量重组: 将这些处理干净的图标重新置入生成的SVG模板中。

最终,你得到的是一个可以在浏览器内置编辑器里 直接拖拽、修改文字、更换颜色 的动态画布,能够按照你的想法对图片细节进行更改。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
基于AutoFigure-Edit的在线画布
西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit渲染过程示例图

人类实验结果:66.7%的专家认为其达到出版级标准!

为了验证AutoFigure的效果,团队构建了全球首个大规模科学插图基准—— FigureBench

规模宏大: 涵盖3,300个高质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本类型。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
FigureBench数据集介绍

优势显著: 在逻辑清晰度和准确度上,AutoFigure的优势极大,在教科书类任务中胜率甚至高达 97.5%

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
在FigureBench上的实验结果

更具说服力的是 人类专家盲测:10位论文一作对生成的图片进行评审,结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了出版级标准。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
人类专家评价结果

接下来,我们通过几个案例直观感受一下。

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的生物机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的材料机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的综述图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的教科书图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

项目价值:AI科学家的“最后一块拼图”

插图不仅是视觉补充,更是阐述复杂科学概念的桥梁。AutoFigure的出现,意味着:

1. 赋能AI科学家: 这是AI实现从文本理解到绘图生成全流程自主研究的关键一步。

2. 应用范围广泛: 无论是流程图、算法示意图,还是复杂的教科书插图,它都能胜任。

项目资源:

  • GitHub:https://github.com/ResearAI/AutoFigure-Edit
  • 论文:https://arxiv.org/abs/2602.03828v1
  • HuggingFace:https://huggingface.co/datasets/WestlakeNLP/FigureBench
  • 在线网站:https://deepscientist.cc

项目说明:

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长。他著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学家项目)等工作。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22110

(0)
上一篇 2026年2月22日 下午6:26
下一篇 2026年2月22日 下午6:51

相关推荐

  • 视觉感知与主动智能:AI耳机如何重塑人机交互范式

    Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示,这款产品并未配备屏幕,形态更接近可穿戴设备:体积与 iPod Shuffle 相仿,便于放入口袋或随身佩戴;内置麦克风与摄像头,可持续感知用户所处的真实环境,并主动提供建议。 在“无屏、主动式 AI”这条赛道上,中国公司已率先迈出步伐。 12 月底,光帆科技…

    2026年1月4日
    22100
  • Gemini 3.1 Pro Preview深度评测:推理速度登顶,成本优势收窄,与GPT-5.2上演巅峰对决

    短的结论:王与马共天下 基本情况: Google与OpenAI在顶尖模型上的追逐异常激烈。三个月前,Gemini 3 Pro曾领先于当时的GPT-5,随后被GPT-5.2反超,双方各领风骚数十天。如今,Gemini 3 Pro停留在Preview阶段,其继任者3.1 Pro Preview登场,而保持了两个月智力王冠的GPT-5.2,其领先地位再次被Goog…

    2026年2月20日
    38900
  • Chandra OCR:重塑文档AI新标杆,以结构感知开启OCR 2.0时代

    OCR技术已历经长期发展,关于“文档智能”的愿景也层出不穷。然而,当面对真正复杂的文档材料时,大多数OCR系统的表现往往不尽如人意: 📄 模糊的PDF文件🧮 老旧数学作业纸的扫描件🗂️ 多栏版式的报纸扫描件✍️ 数十年前的手写表格 现有的一些OCR方案在页面干净规整时表现尚可,但一旦涉及文档结构、上下文理解或内容意图,就显得力不从心。 Chandra OCR…

    2025年12月24日
    27400
  • 浏览器AI大战升级:Tabbit AI浏览器公测,重新定义人机交互新范式

    浏览器,正在成为 AI 落地最重要的战场。 去年 10 月,OpenAI 推出 AI 浏览器 Atlas,奥特曼将其定义为「十年一遇的机会」,放言要「改变 30 亿人使用互联网的方式」。Google DeepMind 推出「Project Mariner」,其口号正是「探索人机交互的未来,从浏览器开始」。 与此同时,微软将 Copilot 深度集成进 Edg…

    2026年3月4日
    36500
  • OpenClaw 2026.3.31版本泄露:内置QQ Bot、强化多模态、可视化任务流,AI工具向“AI入口”转型

    今日,OpenClaw发布了2026.3.31版本。根据官方信息,本次更新包含一系列重要功能,标志着该平台正从单一的AI工具向集成化的“AI入口”演进。 核心更新概览 1. 内置QQ Bot本次更新最受关注的特性之一是内置了对QQ平台的支持。该插件支持多账号管理、凭证安全存储、Slash命令、提醒功能以及多媒体消息收发。这意味着用户可以在QQ的私聊、群聊及频…

    2026年4月1日
    33400