你是否也经历过这样的困境:
论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力;
尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清;
好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。
这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。
现在,你可以将大段的文字材料直接交给 AutoFigure ,这是西湖大学团队推出的全新 智能体绘图框架。

它能够一键理解 上万字 的论文、书籍或博客内容,自动生成高质量的 学术插图 供你使用。
更值得一提的是,其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越:生成的插图不再是静态的PNG图片,而是 细节可编辑的SVG文件(现在你可以在PPT里直接编辑了)。
目前,这项工作已入选 ICLR 2026。其代码、数据集和Web交互界面均已开源,并同步上线了 可一键使用的在线网站。

背景:为什么AI以前画不好科学插图?
在学术绘图领域,一直存在两个极端:
1. 端到端派(如GPT-Image):审美在线,但逻辑经常出错,文字部分更是重灾区,容易出现无意义的幻觉字符。
2. 文本到代码派(如TikZ/SVG生成):逻辑严密,但视觉效果往往缺乏美感,像是上个世纪的教科书插图。
AutoFigure 提出了 “推理式渲染” 范式:将“逻辑布局”和“美化渲染”这两个步骤彻底分离。
技术方案:模拟资深设计师的“三步走”策略
AutoFigure的核心是一个分工明确的多智能体协作系统。

△ AutoFigure架构图(由AutoFigure生成,未经修改)
第一步:概念基础(构建逻辑骨架)
AI读入你长达万词的文字材料,自动提取其中的实体和关系,生成一个结构正确但较为粗糙的布局(SVG/HTML代码)。
第二步:评审与优化(智能体闭环迭代)
模拟人类设计师与需求方的反复沟通,对图片布局进行迭代优化:
- AI设计师 负责根据反馈修改布局。
- AI评审员 则负责指出问题(例如“箭头重叠了”、“布局重心不稳”),直到达到满意的绘图质量。
第三步:美学渲染与“擦除-修正”
在最终美化阶段,AutoFigure首先将布局渲染为一张精美的图片。随后,为了解决当前AIGC生成图片时文字变形的问题,保证图片中文字的正确性,AutoFigure引入了专门的 “擦除-修正” 策略:用OCR识别模糊字符,将它们“抠掉”,再重新覆盖上清晰的矢量文本。
AutoFigure-Edit:将AI生成图装进PPT

△ AutoFigure-Edit流程图(由AutoFigure-Edit生成)
在最新版本 AutoFigure-Edit 中,西湖大学团队更进一步,引入了 SAM3自动抠图 技术,包括:
- 利用Meta最新的SAM3技术识别图中的图标。
- 配合 RMBG-2.0 自动去除背景。
- 矢量重组: 将这些处理干净的图标重新置入生成的SVG模板中。
最终,你得到的是一个可以在浏览器内置编辑器里 直接拖拽、修改文字、更换颜色 的动态画布,能够按照你的想法对图片细节进行更改。

△ 基于AutoFigure-Edit的在线画布

△ AutoFigure-Edit渲染过程示例图
人类实验结果:66.7%的专家认为其达到出版级标准!
为了验证AutoFigure的效果,团队构建了全球首个大规模科学插图基准—— FigureBench。
规模宏大: 涵盖3,300个高质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本类型。

△ FigureBench数据集介绍
优势显著: 在逻辑清晰度和准确度上,AutoFigure的优势极大,在教科书类任务中胜率甚至高达 97.5%。

△ 在FigureBench上的实验结果
更具说服力的是 人类专家盲测:10位论文一作对生成的图片进行评审,结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了出版级标准。

△ 人类专家评价结果
接下来,我们通过几个案例直观感受一下。
由AutoFigure-Edit生成的方法图:

由AutoFigure-Edit生成的方法图:

由AutoFigure-Edit生成的方法图:

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

由AutoFigure-Edit生成的生物机制图:

由AutoFigure-Edit生成的材料机制图:

由AutoFigure生成的综述图:

由AutoFigure生成的教科书图:

项目价值:AI科学家的“最后一块拼图”
插图不仅是视觉补充,更是阐述复杂科学概念的桥梁。AutoFigure的出现,意味着:
1. 赋能AI科学家: 这是AI实现从文本理解到绘图生成全流程自主研究的关键一步。
2. 应用范围广泛: 无论是流程图、算法示意图,还是复杂的教科书插图,它都能胜任。
项目资源:
- GitHub:https://github.com/ResearAI/AutoFigure-Edit
- 论文:https://arxiv.org/abs/2602.03828v1
- HuggingFace:https://huggingface.co/datasets/WestlakeNLP/FigureBench
- 在线网站:https://deepscientist.cc
项目说明:
本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长。他著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。
本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学家项目)等工作。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22110
