西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

12小时前 • AI产品库 • 阅读 28

你是否也经历过这样的困境：

论文截稿在即，面对大段的文字，绘制图表和PPT插图却耗费了大量精力；

尝试用AI工具生成图片，结果要么逻辑混乱，要么文字模糊不清；

好不容易调整好了提示词，生成的图片却是一张无法编辑的“死图”。

这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点，如今有望被解决。

现在，你可以将大段的文字材料直接交给 AutoFigure ，这是西湖大学团队推出的全新 智能体绘图框架。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

它能够一键理解 上万字 的论文、书籍或博客内容，自动生成高质量的 学术插图 供你使用。

更值得一提的是，其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越：生成的插图不再是静态的PNG图片，而是 细节可编辑的SVG文件（现在你可以在PPT里直接编辑了）。

目前，这项工作已入选 ICLR 2026。其代码、数据集和Web交互界面均已开源，并同步上线了 可一键使用的在线网站。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

背景：为什么AI以前画不好科学插图？

在学术绘图领域，一直存在两个极端：

1. 端到端派（如GPT-Image）：审美在线，但逻辑经常出错，文字部分更是重灾区，容易出现无意义的幻觉字符。

2. 文本到代码派（如TikZ/SVG生成）：逻辑严密，但视觉效果往往缺乏美感，像是上个世纪的教科书插图。

AutoFigure 提出了 “推理式渲染” 范式：将“逻辑布局”和“美化渲染”这两个步骤彻底分离。

技术方案：模拟资深设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ AutoFigure架构图（由AutoFigure生成，未经修改）

第一步：概念基础（构建逻辑骨架）

AI读入你长达万词的文字材料，自动提取其中的实体和关系，生成一个结构正确但较为粗糙的布局（SVG/HTML代码）。

第二步：评审与优化（智能体闭环迭代）

模拟人类设计师与需求方的反复沟通，对图片布局进行迭代优化：

AI设计师 负责根据反馈修改布局。
AI评审员 则负责指出问题（例如“箭头重叠了”、“布局重心不稳”），直到达到满意的绘图质量。

第三步：美学渲染与“擦除-修正”

在最终美化阶段，AutoFigure首先将布局渲染为一张精美的图片。随后，为了解决当前AIGC生成图片时文字变形的问题，保证图片中文字的正确性，AutoFigure引入了专门的 “擦除-修正” 策略：用OCR识别模糊字符，将它们“抠掉”，再重新覆盖上清晰的矢量文本。

AutoFigure-Edit：将AI生成图装进PPT

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ AutoFigure-Edit流程图（由AutoFigure-Edit生成）

在最新版本 AutoFigure-Edit 中，西湖大学团队更进一步，引入了 SAM3自动抠图 技术，包括：

利用Meta最新的SAM3技术识别图中的图标。
配合 RMBG-2.0 自动去除背景。
矢量重组： 将这些处理干净的图标重新置入生成的SVG模板中。

最终，你得到的是一个可以在浏览器内置编辑器里 直接拖拽、修改文字、更换颜色 的动态画布，能够按照你的想法对图片细节进行更改。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ 基于AutoFigure-Edit的在线画布

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ AutoFigure-Edit渲染过程示例图

人类实验结果：66.7%的专家认为其达到出版级标准！

为了验证AutoFigure的效果，团队构建了全球首个大规模科学插图基准—— FigureBench。

规模宏大： 涵盖3,300个高质量文本-图片对，跨越论文、综述、技术博客、教科书等四种科学文本类型。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ FigureBench数据集介绍

优势显著： 在逻辑清晰度和准确度上，AutoFigure的优势极大，在教科书类任务中胜率甚至高达 97.5%。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ 在FigureBench上的实验结果

更具说服力的是 人类专家盲测：10位论文一作对生成的图片进行评审，结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了出版级标准。

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

△ 人类专家评价结果

接下来，我们通过几个案例直观感受一下。

由AutoFigure-Edit生成的方法图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure-Edit生成的方法图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure-Edit生成的方法图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

方法图，左侧为第一阶段PNG形式，右侧为最终转换得到的SVG文件：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

方法图，左侧为第一阶段PNG形式，右侧为最终转换得到的SVG文件：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure-Edit生成的生物机制图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure-Edit生成的材料机制图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure生成的综述图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

由AutoFigure生成的教科书图：

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

项目价值：AI科学家的“最后一块拼图”

插图不仅是视觉补充，更是阐述复杂科学概念的桥梁。AutoFigure的出现，意味着：

1. 赋能AI科学家： 这是AI实现从文本理解到绘图生成全流程自主研究的关键一步。

2. 应用范围广泛： 无论是流程图、算法示意图，还是复杂的教科书插图，它都能胜任。

项目资源：

GitHub：https://github.com/ResearAI/AutoFigure-Edit
论文：https://arxiv.org/abs/2602.03828v1
HuggingFace：https://huggingface.co/datasets/WestlakeNLP/FigureBench
在线网站：https://deepscientist.cc

项目说明：

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室（WestlakeNLP）成立于2018年9月，由张岳教授领导。张岳教授毕业于牛津大学，获博士学位，现任西湖大学工程学院副院长。他著有剑桥大学出版社出版的《自然语言处理》一书，并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist（两个月刷新三个前沿任务SoTA的人工智能科学家项目）等工作。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/22110

多智能体协作 ICLR 2026 学术插图生成 SVG矢量图 AIGC

赞 (0)

0 0

卡帕西力荐NanoClaw：仅4000行代码的AI执行中枢，开启本地化智能新纪元

上一篇 12小时前

RoboOmni：全模态端到端操作大模型开启机器人主动服务新时代

下一篇 2025年11月11日下午4:20

OpenClaw（Clawdbot）实现主动通话功能：AI助手迈向交互新纪元

OpenClaw（Clawdbot）实现主动通话功能：AI助手迈向交互新纪元在人工智能助手领域，实现自然、主动的对话一直是技术演进的核心目标。近日，开源项目 OpenClaw（亦被称为 Clawdbot）宣布成功实现了主动通话功能，标志着 AI 助手从被动响应迈向了主动交互的新阶段。传统的 AI 助手大多遵循“一问一答”的模式，需要用户主动发起对话。而 …

AI产品库 2026年2月7日
187000
AI产品库

腾讯混元与厦大联合推出JarvisEvo：首个具备自我评估与反思能力的智能修图Agent，精准调用200+专业工具

一句话让照片变大片，比专业软件简单、比AI修图更可控！腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体，旨在模拟人类专家设计师，通过迭代编辑、视觉感知、自我评估和自我反思来完成图像处理。 “像专家一样思考，像工匠一样打磨”。JarvisEvo不仅能调用Lightroom等专业工具进行修图，更能“看见”修图后的变化并进行自我评判，从而实…

2025年12月26日
122000
AI产品库

Video2X：AI驱动的视频无损超清修复神器，让老旧影像重获新生

随着显示器分辨率不断提升，4K甚至更高规格的屏幕已逐渐普及。然而，硬件规格的提升却让低分辨率片源的观看体验问题愈发凸显。当我们试图重温硬盘中珍藏多年的经典影片时，常常因其仅有360P或480P的原始画质而倍感困扰——画面充满噪点，细节模糊不清，严重影响观感。针对这一痛点，一款名为 Video2X 的开源工具提供了出色的解决方案。其核心功能非常专注：运用…

2026年1月25日
114000
AI产品库

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图，转换为可完全编辑的格式，例如 DrawIO 的 XML 或 PPTX。该项目并非简单的OCR工具，而是基于计算机视觉模型，对图表中的逻辑关系、形状组件和文本进行深度重建，实现高保真还原。生成的图形元素可以独立选中和…

1天前
17000
AI产品库

6款AI驱动的开源CLI工具：让终端开发更智能高效

如果你大部分时间都在终端里工作，你一定知道一个得心应手的命令能省下数小时的工夫。如今，新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体，让开发工作重新变得高效而有趣。这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨，但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

2026年1月2日
121000