AutoFigure ของมหาวิทยาลัยซีหู: กรอบการทำงานวาดภาพด้วยเอเจนต์อัจฉริยะเพื่อสร้างภาพประกอบทางวิชาการอัตโนมัติ ผลงานที่ได้รับการคัดเลือกใน ICLR 2026

2026年2月22日 pm6:26 • คลังสินค้า AI • 328 views

คุณเคยประสบปัญหานี้หรือไม่:

กำหนดส่งวิทยานิพนธ์ใกล้เข้ามาแล้ว แต่กลับต้องใช้พลังงานและเวลาอย่างมากในการสร้างแผนภูมิและภาพประกอบสำหรับ PowerPoint

ลองใช้เครื่องมือ AI ในการสร้างภาพ แต่ผลลัพธ์กลับสับสนไร้เหตุผล หรือข้อความเบลอไม่ชัดเจน

สุดท้ายเมื่อปรับปรุง prompt ให้ดีแล้ว ภาพที่ได้กลับเป็น “ภาพตาย” ที่ไม่สามารถแก้ไขได้

ความท้าทายที่ว่า “ยากที่จะรักษาทั้งความสวยงามและตรรกะไปพร้อมกัน การสร้างและการแก้ไขถูกแยกขาดจากกัน” นี้ ตอนนี้มีแนวโน้มที่จะได้รับการแก้ไขแล้ว

ตอนนี้ คุณสามารถส่งข้อความยาวๆ ให้กับ AutoFigure โดยตรง นี่คือ เฟรมเวิร์กการวาดภาพด้วยเอเจนต์อัจฉริยะ ใหม่ล่าสุดที่ทีมจากมหาวิทยาลัย Westlake ได้เปิดตัว

AutoFigure ของมหาวิทยาลัยซีหู: กรอบการทำงานวาดภาพด้วยเอเจนต์อัจฉริยะเพื่อสร้างภาพประกอบทางวิชาการอัตโนมัติ ผลงานที่ได้รับการคัดเลือกใน ICLR 2026

มันสามารถเข้าใจเนื้อหาวิทยานิพนธ์ หนังสือ หรือบล็อกที่ยาว หลายหมื่นคำ ได้ด้วยคลิกเดียว และสร้าง ภาพประกอบทางวิชาการ คุณภาพสูงให้คุณใช้ได้โดยอัตโนมัติ

ที่น่าสนใจยิ่งกว่านั้นคือเวอร์ชันที่ได้รับการปรับปรุง AutoFigure-Edit ซึ่งก้าวข้ามจาก “พิกเซล” สู่ “เวกเตอร์”: ภาพประกอบที่สร้างขึ้นไม่ใช่ภาพ PNG แบบคงที่อีกต่อไป แต่เป็น ไฟล์ SVG ที่สามารถแก้ไขรายละเอียดได้ (ตอนนี้คุณสามารถแก้ไขได้โดยตรงใน PowerPoint แล้ว)

ปัจจุบัน งานวิจัยนี้ได้รับการคัดเลือกให้ตีพิมพ์ใน ICLR 2026 รหัสโปรแกรม ชุดข้อมูล และเว็บอินเทอร์เฟซได้ถูกเปิดเผยเป็นโอเพนซอร์สทั้งหมด และยังมี เว็บไซต์ออนไลน์ที่ใช้งานได้ทันทีด้วยคลิกเดียว พร้อมกันนี้

ภูมิหลัง: ทำไม AI ในอดีตถึงวาดภาพประกอบทางวิทยาศาสตร์ได้ไม่ดี?

ในสาขาการวาดภาพทางวิชาการ มีสองขั้วสุดโต่งที่ดำรงอยู่เสมอ:

1. ฝ่าย End-to-End (เช่น GPT-Image): มีความสวยงาม แต่ตรรกะมักผิดพลาด โดยเฉพาะส่วนข้อความซึ่งเป็นพื้นที่เสี่ยง มักเกิดอักขระหลอนที่ไร้ความหมาย

2. ฝ่าย Text-to-Code (เช่น การสร้าง TikZ/SVG): มีตรรกะที่เข้มงวด แต่ภาพที่ได้มักขาดความสวยงาม ดูเหมือนภาพประกอบในหนังสือเรียนยุคศตวรรษที่แล้ว

AutoFigure ได้เสนอแนวทาง “การเรนเดอร์แบบใช้เหตุผล”: แยกขั้นตอน “การจัดวางเชิงตรรกะ” และ “การเรนเดอร์เพื่อความสวยงาม” ออกจากกันโดยสิ้นเชิง

แนวทางทางเทคนิค: จำลองกลยุทธ์ “สามขั้นตอน” ของนักออกแบบมืออาชีพ

หัวใจของ AutoFigure คือระบบความร่วมมือของเอเจนต์อัจฉริยะหลายตัวที่มีการแบ่งหน้าที่ชัดเจน

△ แผนภาพโครงสร้างของ AutoFigure (สร้างโดย AutoFigure โดยไม่มีการแก้ไข)

ขั้นตอนที่หนึ่ง: พื้นฐานแนวคิด (สร้างโครงสร้างตรรกะ)

AI อ่านข้อความยาวหลายพันคำของคุณ แยกเอนทิตีและความสัมพันธ์ออกมาโดยอัตโนมัติ และสร้างโครงร่างการจัดวางที่ถูกต้องแต่ค่อนข้างหยาบ (โค้ด SVG/HTML)

ขั้นตอนที่สอง: การตรวจสอบและปรับปรุง (การวนซ้ำแบบปิดของเอเจนต์อัจฉริยะ)

จำลองการสื่อสารซ้ำๆ ระหว่างนักออกแบบมนุษย์และผู้รับงาน เพื่อปรับปรุงโครงร่างภาพอย่างต่อเนื่อง:

AI นักออกแบบ รับผิดชอบในการแก้ไขโครงร่างตามข้อเสนอแนะ
AI ผู้ตรวจสอบ รับผิดชอบในการชี้ปัญหาต่างๆ (เช่น “ลูกศรซ้อนทับกัน”, “จุดศูนย์ถ่วงของโครงร่างไม่มั่นคง”) จนกว่าจะได้คุณภาพการวาดภาพที่น่าพอใจ

ขั้นตอนที่สาม: การเรนเดอร์เพื่อความสวยงามและ “การลบ-แก้ไข”

ในขั้นตอนสุดท้ายของการทำให้สวยงาม AutoFigure จะเรนเดอร์โครงร่างเป็นภาพสวยงามก่อน จากนั้น เพื่อแก้ปัญหาการบิดเบือนของข้อความเมื่อสร้างภาพด้วย AIGC ในปัจจุบัน และรับประกันความถูกต้องของข้อความในภาพ AutoFigure ได้นำกลยุทธ์พิเศษ “การลบ-แก้ไข” มาใช้: ใช้ OCR ระบุอักขระที่เบลอ “ตัด” พวกมันออก แล้วเขียนข้อความเวกเตอร์ที่ชัดเจนทับลงไปใหม่

AutoFigure-Edit: นำภาพที่สร้างโดย AI เข้าไปใน PowerPoint

△ แผนภาพขั้นตอนการทำงานของ AutoFigure-Edit (สร้างโดย AutoFigure-Edit)

ในเวอร์ชันล่าสุด AutoFigure-Edit ทีมมหาวิทยาลัย Westlake ได้ก้าวไปอีกขั้นด้วยการนำเทคโนโลยี SAM3 การตัดภาพอัตโนมัติ มาใช้ ซึ่งรวมถึง:

ใช้เทคโนโลยี SAM3 ล่าสุดจาก Meta เพื่อระบุไอคอนในภาพ
ร่วมกับ RMBG-2.0 เพื่อลบพื้นหลังออกโดยอัตโนมัติ
การรวมกลุ่มใหม่แบบเวกเตอร์: นำไอคอนที่ทำความสะอาดแล้วเหล่านี้กลับเข้าไปในเทมเพลต SVG ที่สร้างขึ้น

ในที่สุด คุณจะได้แคนวาสแบบไดนามิกที่สามารถ ลากและวาง แก้ไขข้อความ เปลี่ยนสี ได้โดยตรงในโปรแกรมแก้ไขในตัวของเบราว์เซอร์ ซึ่งสามารถเปลี่ยนแปลงรายละเอียดของภาพตามความคิดของคุณได้

△ แคนวาสออนไลน์ที่ใช้ AutoFigure-Edit

△ ตัวอย่างภาพกระบวนการเรนเดอร์ของ AutoFigure-Edit

ผลการทดลองกับมนุษย์: ผู้เชี่ยวชาญ 66.7% คิดว่ามันได้มาตรฐานระดับตีพิมพ์!

เพื่อยืนยันประสิทธิภาพของ AutoFigure ทีมงานได้สร้างเกณฑ์มาตรฐานภาพประกอบทางวิทยาศาสตร์ขนาดใหญ่ระดับโลกครั้งแรก – FigureBench

ขนาดใหญ่โต: ครอบคลุมคู่ข้อความ-ภาพคุณภาพสูง 3,300 คู่ ทั่วทั้งสี่ประเภทข้อความทางวิทยาศาสตร์: วิทยานิพนธ์ บทวิจารณ์ บล็อกเทคนิค และหนังสือเรียน

△ คำอธิบายชุดข้อมูล FigureBench

ข้อได้เปรียบที่ชัดเจน: ในด้านความชัดเจนและความแม่นยำของตรรกะ AutoFigure มีข้อได้เปรียบอย่างมาก โดยในงานประเภทหนังสือเรียน อัตราชนะสูงถึง 97.5%

△ ผลการทดลองบน FigureBench

สิ่งที่โน้มน้าวใจยิ่งกว่าคือ การทดสอบแบบบอดโดยผู้เชี่ยวชาญมนุษย์: ผู้เขียนลำดับแรกของวิทยานิพนธ์ 10 คนทำการตรวจสอบภาพที่สร้างขึ้น ผลลัพธ์แสดงให้เห็นว่าผู้เชี่ยวชาญ 66.7% คิดว่าภาพที่สร้างโดย AutoFigure มีมาตรฐานระดับตีพิมพ์แล้ว

△ ผลการประเมินโดยผู้เชี่ยวชาญมนุษย์

ต่อไป เรามาดูตัวอย่างบางส่วนเพื่อรับรู้โดยตรงกัน

แผนภาพวิธีการที่สร้างโดย AutoFigure-Edit:

แผนภาพวิธีการ ด้านซ้ายเป็นรูปแบบ PNG ในระยะแรก ด้านขวาเป็นไฟล์ SVG สุดท้ายที่แปลงได้:

แผนภาพกลไกทางชีววิทยาที่สร้างโดย AutoFigure-Edit:

แผนภาพกลไกวัสดุที่สร้างโดย AutoFigure-Edit:

แผนภาพบทวิจารณ์ที่สร้างโดย AutoFigure:

แผนภาพหนังสือเรียนที่สร้างโดย AutoFigure:

คุณค่าของโครงการ: “ชิ้นส่วนสุดท้ายของปริศนา” สำหรับนักวิทยาศาสตร์ AI

ภาพประกอบไม่เพียงแต่เป็นส่วนเสริมทางภาพ แต่ยังเป็นสะพานที่อธิบายแนวคิดทางวิทยาศาสตร์ที่ซับซ้อน การปรากฏตัวของ AutoFigure หมายความว่า:

1. เสริมพลังให้นักวิทยาศาสตร์ AI: นี่เป็นก้าวสำคัญสำหรับ AI ในการบรรลุกระบวนการวิจัยอิสระแบบครบวงจร ตั้งแต่ความเข้าใจข้อความไปจนถึงการสร้างภาพวาด

2. ขอบเขตการประยุกต์ใช้ที่กว้างขวาง: ไม่ว่าจะเป็นแผนผังลำดับงาน แผนภาพอัลกอริทึม หรือภาพประกอบหนังสือเรียนที่ซับซ้อน มันสามารถรับมือได้ทั้งหมด

ทรัพยากรโครงการ:

GitHub: https://github.com/ResearAI/AutoFigure-Edit
บทความวิจัย: https://arxiv.org/abs/2602.03828v1
HuggingFace: https://huggingface.co/datasets/WestlakeNLP/FigureBench
เว็บไซต์ออนไลน์: https://deepscientist.cc

คำอธิบายโครงการ:

โครงการนี้เปิดเผยเป็นโอเพนซอร์สโดยสมบูรณ์โดยห้องปฏิบัติการของศาสตราจารย์ Yue Zhang แห่งมหาวิทยาลัย Westlake ห้องปฏิบัติการประมวลผลภาษาธรรมชาติของมหาวิทยาลัย Westlake (WestlakeNLP) ก่อตั้งขึ้นในเดือนกันยายน 2018 นำโดยศาสตราจารย์ Yue Zhang ศาสตราจารย์ Zhang สำเร็จการศึกษาระดับปริญญาเอกจากมหาวิทยาลัย Oxford และปัจจุบันดำรงตำแหน่งรองคณบดีคณะวิศวกรรมศาสตร์ของมหาวิทยาลัย Westlake เขาเป็นผู้เขียนหนังสือ “Natural Language Processing” ที่ตีพิมพ์โดย Cambridge University Press และเคยดำรงตำแหน่งประธานคณะกรรมการโปรแกรมของงานประชุม NLP ชั้นนำหลายแห่ง เช่น EMNLP 2022

สมาชิกหลักของทีมโครงการนี้รวมถึง Yi-Xuan Weng*, Zhen Lin, Min-Jun Zhu, Qiu-Jie Xie, Pan-Zhong Lu, Qi-Yao Sun และอื่นๆ ผลงานก่อนหน้าของห้องปฏิบัติการรวมถึง Cycle Researcher, DeepReview, DeepScientist (โครงการนักวิทยาศาสตร์ปัญญาประดิษฐ์ที่ทำลายสถิติ SoTA ของสามงานวิจัยล้ำสมัยภายในสองเดือน) เป็นต้น

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง