西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

你是否也经历过这样的困境:

论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力;

尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清;

好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。

这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。

现在,你可以将大段的文字材料直接交给 AutoFigure ,这是西湖大学团队推出的全新 智能体绘图框架

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

它能够一键理解 上万字 的论文、书籍或博客内容,自动生成高质量的 学术插图 供你使用。

更值得一提的是,其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越:生成的插图不再是静态的PNG图片,而是 细节可编辑的SVG文件(现在你可以在PPT里直接编辑了)。

目前,这项工作已入选 ICLR 2026。其代码、数据集和Web交互界面均已开源,并同步上线了 可一键使用的在线网站

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

背景:为什么AI以前画不好科学插图?

在学术绘图领域,一直存在两个极端:

1. 端到端派(如GPT-Image):审美在线,但逻辑经常出错,文字部分更是重灾区,容易出现无意义的幻觉字符。

2. 文本到代码派(如TikZ/SVG生成):逻辑严密,但视觉效果往往缺乏美感,像是上个世纪的教科书插图。

AutoFigure 提出了 “推理式渲染” 范式:将“逻辑布局”和“美化渲染”这两个步骤彻底分离。

技术方案:模拟资深设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure架构图(由AutoFigure生成,未经修改)

第一步:概念基础(构建逻辑骨架)

AI读入你长达万词的文字材料,自动提取其中的实体和关系,生成一个结构正确但较为粗糙的布局(SVG/HTML代码)。

第二步:评审与优化(智能体闭环迭代)

模拟人类设计师与需求方的反复沟通,对图片布局进行迭代优化:

  • AI设计师 负责根据反馈修改布局。
  • AI评审员 则负责指出问题(例如“箭头重叠了”、“布局重心不稳”),直到达到满意的绘图质量。

第三步:美学渲染与“擦除-修正”

在最终美化阶段,AutoFigure首先将布局渲染为一张精美的图片。随后,为了解决当前AIGC生成图片时文字变形的问题,保证图片中文字的正确性,AutoFigure引入了专门的 “擦除-修正” 策略:用OCR识别模糊字符,将它们“抠掉”,再重新覆盖上清晰的矢量文本。

AutoFigure-Edit:将AI生成图装进PPT

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit流程图(由AutoFigure-Edit生成)

在最新版本 AutoFigure-Edit 中,西湖大学团队更进一步,引入了 SAM3自动抠图 技术,包括:

  • 利用Meta最新的SAM3技术识别图中的图标。
  • 配合 RMBG-2.0 自动去除背景。
  • 矢量重组: 将这些处理干净的图标重新置入生成的SVG模板中。

最终,你得到的是一个可以在浏览器内置编辑器里 直接拖拽、修改文字、更换颜色 的动态画布,能够按照你的想法对图片细节进行更改。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
基于AutoFigure-Edit的在线画布
西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
AutoFigure-Edit渲染过程示例图

人类实验结果:66.7%的专家认为其达到出版级标准!

为了验证AutoFigure的效果,团队构建了全球首个大规模科学插图基准—— FigureBench

规模宏大: 涵盖3,300个高质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本类型。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
FigureBench数据集介绍

优势显著: 在逻辑清晰度和准确度上,AutoFigure的优势极大,在教科书类任务中胜率甚至高达 97.5%

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
在FigureBench上的实验结果

更具说服力的是 人类专家盲测:10位论文一作对生成的图片进行评审,结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了出版级标准。

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
人类专家评价结果

接下来,我们通过几个案例直观感受一下。

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的方法图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

方法图,左侧为第一阶段PNG形式,右侧为最终转换得到的SVG文件:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的生物机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure-Edit生成的材料机制图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的综述图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

由AutoFigure生成的教科书图:

西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果

项目价值:AI科学家的“最后一块拼图”

插图不仅是视觉补充,更是阐述复杂科学概念的桥梁。AutoFigure的出现,意味着:

1. 赋能AI科学家: 这是AI实现从文本理解到绘图生成全流程自主研究的关键一步。

2. 应用范围广泛: 无论是流程图、算法示意图,还是复杂的教科书插图,它都能胜任。

项目资源:

  • GitHub:https://github.com/ResearAI/AutoFigure-Edit
  • 论文:https://arxiv.org/abs/2602.03828v1
  • HuggingFace:https://huggingface.co/datasets/WestlakeNLP/FigureBench
  • 在线网站:https://deepscientist.cc

项目说明:

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长。他著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学家项目)等工作。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/22110

(0)
上一篇 12小时前
下一篇 2025年11月11日 下午4:20

相关推荐

  • OpenClaw(Clawdbot)实现主动通话功能:AI助手迈向交互新纪元

    OpenClaw(Clawdbot)实现主动通话功能:AI助手迈向交互新纪元 在人工智能助手领域,实现自然、主动的对话一直是技术演进的核心目标。近日,开源项目 OpenClaw(亦被称为 Clawdbot)宣布成功实现了主动通话功能,标志着 AI 助手从被动响应迈向了主动交互的新阶段。 传统的 AI 助手大多遵循“一问一答”的模式,需要用户主动发起对话。而 …

    AI产品库 2026年2月7日
    18700
  • 腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

    一句话让照片变大片,比专业软件简单、比AI修图更可控! 腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体,旨在模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来完成图像处理。 “像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能调用Lightroom等专业工具进行修图,更能“看见”修图后的变化并进行自我评判,从而实…

    2025年12月26日
    12200
  • Video2X:AI驱动的视频无损超清修复神器,让老旧影像重获新生

    随着显示器分辨率不断提升,4K甚至更高规格的屏幕已逐渐普及。然而,硬件规格的提升却让低分辨率片源的观看体验问题愈发凸显。 当我们试图重温硬盘中珍藏多年的经典影片时,常常因其仅有360P或480P的原始画质而倍感困扰——画面充满噪点,细节模糊不清,严重影响观感。 针对这一痛点,一款名为 Video2X 的开源工具提供了出色的解决方案。 其核心功能非常专注:运用…

    2026年1月25日
    11400
  • 4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

    01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。 该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和…

    1天前
    1700
  • 6款AI驱动的开源CLI工具:让终端开发更智能高效

    如果你大部分时间都在终端里工作,你一定知道一个得心应手的命令能省下数小时的工夫。如今,新一代的 CLI 工具正在改变游戏规则——它们将 AI、自动化与简洁性融为一体,让开发工作重新变得高效而有趣。 这里推荐六款我正在使用且非常喜欢的开源 CLI 工具。它们不花哨,但都是能解决实际问题的利器。 1. Qodo Command Qodo Command 就像是终…

    2026年1月2日
    12100