คุณเคยประสบปัญหานี้หรือไม่:
กำหนดส่งวิทยานิพนธ์ใกล้เข้ามาแล้ว แต่กลับต้องใช้พลังงานและเวลาอย่างมากในการสร้างแผนภูมิและภาพประกอบสำหรับ PowerPoint
ลองใช้เครื่องมือ AI ในการสร้างภาพ แต่ผลลัพธ์กลับสับสนไร้เหตุผล หรือข้อความเบลอไม่ชัดเจน
สุดท้ายเมื่อปรับปรุง prompt ให้ดีแล้ว ภาพที่ได้กลับเป็น “ภาพตาย” ที่ไม่สามารถแก้ไขได้
ความท้าทายที่ว่า “ยากที่จะรักษาทั้งความสวยงามและตรรกะไปพร้อมกัน การสร้างและการแก้ไขถูกแยกขาดจากกัน” นี้ ตอนนี้มีแนวโน้มที่จะได้รับการแก้ไขแล้ว
ตอนนี้ คุณสามารถส่งข้อความยาวๆ ให้กับ AutoFigure โดยตรง นี่คือ เฟรมเวิร์กการวาดภาพด้วยเอเจนต์อัจฉริยะ ใหม่ล่าสุดที่ทีมจากมหาวิทยาลัย Westlake ได้เปิดตัว

มันสามารถเข้าใจเนื้อหาวิทยานิพนธ์ หนังสือ หรือบล็อกที่ยาว หลายหมื่นคำ ได้ด้วยคลิกเดียว และสร้าง ภาพประกอบทางวิชาการ คุณภาพสูงให้คุณใช้ได้โดยอัตโนมัติ
ที่น่าสนใจยิ่งกว่านั้นคือเวอร์ชันที่ได้รับการปรับปรุง AutoFigure-Edit ซึ่งก้าวข้ามจาก “พิกเซล” สู่ “เวกเตอร์”: ภาพประกอบที่สร้างขึ้นไม่ใช่ภาพ PNG แบบคงที่อีกต่อไป แต่เป็น ไฟล์ SVG ที่สามารถแก้ไขรายละเอียดได้ (ตอนนี้คุณสามารถแก้ไขได้โดยตรงใน PowerPoint แล้ว)
ปัจจุบัน งานวิจัยนี้ได้รับการคัดเลือกให้ตีพิมพ์ใน ICLR 2026 รหัสโปรแกรม ชุดข้อมูล และเว็บอินเทอร์เฟซได้ถูกเปิดเผยเป็นโอเพนซอร์สทั้งหมด และยังมี เว็บไซต์ออนไลน์ที่ใช้งานได้ทันทีด้วยคลิกเดียว พร้อมกันนี้

ภูมิหลัง: ทำไม AI ในอดีตถึงวาดภาพประกอบทางวิทยาศาสตร์ได้ไม่ดี?
ในสาขาการวาดภาพทางวิชาการ มีสองขั้วสุดโต่งที่ดำรงอยู่เสมอ:
1. ฝ่าย End-to-End (เช่น GPT-Image): มีความสวยงาม แต่ตรรกะมักผิดพลาด โดยเฉพาะส่วนข้อความซึ่งเป็นพื้นที่เสี่ยง มักเกิดอักขระหลอนที่ไร้ความหมาย
2. ฝ่าย Text-to-Code (เช่น การสร้าง TikZ/SVG): มีตรรกะที่เข้มงวด แต่ภาพที่ได้มักขาดความสวยงาม ดูเหมือนภาพประกอบในหนังสือเรียนยุคศตวรรษที่แล้ว
AutoFigure ได้เสนอแนวทาง “การเรนเดอร์แบบใช้เหตุผล”: แยกขั้นตอน “การจัดวางเชิงตรรกะ” และ “การเรนเดอร์เพื่อความสวยงาม” ออกจากกันโดยสิ้นเชิง
แนวทางทางเทคนิค: จำลองกลยุทธ์ “สามขั้นตอน” ของนักออกแบบมืออาชีพ
หัวใจของ AutoFigure คือระบบความร่วมมือของเอเจนต์อัจฉริยะหลายตัวที่มีการแบ่งหน้าที่ชัดเจน

△ แผนภาพโครงสร้างของ AutoFigure (สร้างโดย AutoFigure โดยไม่มีการแก้ไข)
ขั้นตอนที่หนึ่ง: พื้นฐานแนวคิด (สร้างโครงสร้างตรรกะ)
AI อ่านข้อความยาวหลายพันคำของคุณ แยกเอนทิตีและความสัมพันธ์ออกมาโดยอัตโนมัติ และสร้างโครงร่างการจัดวางที่ถูกต้องแต่ค่อนข้างหยาบ (โค้ด SVG/HTML)
ขั้นตอนที่สอง: การตรวจสอบและปรับปรุง (การวนซ้ำแบบปิดของเอเจนต์อัจฉริยะ)
จำลองการสื่อสารซ้ำๆ ระหว่างนักออกแบบมนุษย์และผู้รับงาน เพื่อปรับปรุงโครงร่างภาพอย่างต่อเนื่อง:
- AI นักออกแบบ รับผิดชอบในการแก้ไขโครงร่างตามข้อเสนอแนะ
- AI ผู้ตรวจสอบ รับผิดชอบในการชี้ปัญหาต่างๆ (เช่น “ลูกศรซ้อนทับกัน”, “จุดศูนย์ถ่วงของโครงร่างไม่มั่นคง”) จนกว่าจะได้คุณภาพการวาดภาพที่น่าพอใจ
ขั้นตอนที่สาม: การเรนเดอร์เพื่อความสวยงามและ “การลบ-แก้ไข”
ในขั้นตอนสุดท้ายของการทำให้สวยงาม AutoFigure จะเรนเดอร์โครงร่างเป็นภาพสวยงามก่อน จากนั้น เพื่อแก้ปัญหาการบิดเบือนของข้อความเมื่อสร้างภาพด้วย AIGC ในปัจจุบัน และรับประกันความถูกต้องของข้อความในภาพ AutoFigure ได้นำกลยุทธ์พิเศษ “การลบ-แก้ไข” มาใช้: ใช้ OCR ระบุอักขระที่เบลอ “ตัด” พวกมันออก แล้วเขียนข้อความเวกเตอร์ที่ชัดเจนทับลงไปใหม่
AutoFigure-Edit: นำภาพที่สร้างโดย AI เข้าไปใน PowerPoint

△ แผนภาพขั้นตอนการทำงานของ AutoFigure-Edit (สร้างโดย AutoFigure-Edit)
ในเวอร์ชันล่าสุด AutoFigure-Edit ทีมมหาวิทยาลัย Westlake ได้ก้าวไปอีกขั้นด้วยการนำเทคโนโลยี SAM3 การตัดภาพอัตโนมัติ มาใช้ ซึ่งรวมถึง:
- ใช้เทคโนโลยี SAM3 ล่าสุดจาก Meta เพื่อระบุไอคอนในภาพ
- ร่วมกับ RMBG-2.0 เพื่อลบพื้นหลังออกโดยอัตโนมัติ
- การรวมกลุ่มใหม่แบบเวกเตอร์: นำไอคอนที่ทำความสะอาดแล้วเหล่านี้กลับเข้าไปในเทมเพลต SVG ที่สร้างขึ้น
ในที่สุด คุณจะได้แคนวาสแบบไดนามิกที่สามารถ ลากและวาง แก้ไขข้อความ เปลี่ยนสี ได้โดยตรงในโปรแกรมแก้ไขในตัวของเบราว์เซอร์ ซึ่งสามารถเปลี่ยนแปลงรายละเอียดของภาพตามความคิดของคุณได้

△ แคนวาสออนไลน์ที่ใช้ AutoFigure-Edit

△ ตัวอย่างภาพกระบวนการเรนเดอร์ของ AutoFigure-Edit
ผลการทดลองกับมนุษย์: ผู้เชี่ยวชาญ 66.7% คิดว่ามันได้มาตรฐานระดับตีพิมพ์!
เพื่อยืนยันประสิทธิภาพของ AutoFigure ทีมงานได้สร้างเกณฑ์มาตรฐานภาพประกอบทางวิทยาศาสตร์ขนาดใหญ่ระดับโลกครั้งแรก – FigureBench
ขนาดใหญ่โต: ครอบคลุมคู่ข้อความ-ภาพคุณภาพสูง 3,300 คู่ ทั่วทั้งสี่ประเภทข้อความทางวิทยาศาสตร์: วิทยานิพนธ์ บทวิจารณ์ บล็อกเทคนิค และหนังสือเรียน

△ คำอธิบายชุดข้อมูล FigureBench
ข้อได้เปรียบที่ชัดเจน: ในด้านความชัดเจนและความแม่นยำของตรรกะ AutoFigure มีข้อได้เปรียบอย่างมาก โดยในงานประเภทหนังสือเรียน อัตราชนะสูงถึง 97.5%

△ ผลการทดลองบน FigureBench
สิ่งที่โน้มน้าวใจยิ่งกว่าคือ การทดสอบแบบบอดโดยผู้เชี่ยวชาญมนุษย์: ผู้เขียนลำดับแรกของวิทยานิพนธ์ 10 คนทำการตรวจสอบภาพที่สร้างขึ้น ผลลัพธ์แสดงให้เห็นว่าผู้เชี่ยวชาญ 66.7% คิดว่าภาพที่สร้างโดย AutoFigure มีมาตรฐานระดับตีพิมพ์แล้ว

△ ผลการประเมินโดยผู้เชี่ยวชาญมนุษย์
ต่อไป เรามาดูตัวอย่างบางส่วนเพื่อรับรู้โดยตรงกัน
แผนภาพวิธีการที่สร้างโดย AutoFigure-Edit:

แผนภาพวิธีการที่สร้างโดย AutoFigure-Edit:

แผนภาพวิธีการที่สร้างโดย AutoFigure-Edit:

แผนภาพวิธีการ ด้านซ้ายเป็นรูปแบบ PNG ในระยะแรก ด้านขวาเป็นไฟล์ SVG สุดท้ายที่แปลงได้:

แผนภาพวิธีการ ด้านซ้ายเป็นรูปแบบ PNG ในระยะแรก ด้านขวาเป็นไฟล์ SVG สุดท้ายที่แปลงได้:

แผนภาพกลไกทางชีววิทยาที่สร้างโดย AutoFigure-Edit:

แผนภาพกลไกวัสดุที่สร้างโดย AutoFigure-Edit:

แผนภาพบทวิจารณ์ที่สร้างโดย AutoFigure:

แผนภาพหนังสือเรียนที่สร้างโดย AutoFigure:

คุณค่าของโครงการ: “ชิ้นส่วนสุดท้ายของปริศนา” สำหรับนักวิทยาศาสตร์ AI
ภาพประกอบไม่เพียงแต่เป็นส่วนเสริมทางภาพ แต่ยังเป็นสะพานที่อธิบายแนวคิดทางวิทยาศาสตร์ที่ซับซ้อน การปรากฏตัวของ AutoFigure หมายความว่า:
1. เสริมพลังให้นักวิทยาศาสตร์ AI: นี่เป็นก้าวสำคัญสำหรับ AI ในการบรรลุกระบวนการวิจัยอิสระแบบครบวงจร ตั้งแต่ความเข้าใจข้อความไปจนถึงการสร้างภาพวาด
2. ขอบเขตการประยุกต์ใช้ที่กว้างขวาง: ไม่ว่าจะเป็นแผนผังลำดับงาน แผนภาพอัลกอริทึม หรือภาพประกอบหนังสือเรียนที่ซับซ้อน มันสามารถรับมือได้ทั้งหมด
ทรัพยากรโครงการ:
- GitHub: https://github.com/ResearAI/AutoFigure-Edit
- บทความวิจัย: https://arxiv.org/abs/2602.03828v1
- HuggingFace: https://huggingface.co/datasets/WestlakeNLP/FigureBench
- เว็บไซต์ออนไลน์: https://deepscientist.cc
คำอธิบายโครงการ:
โครงการนี้เปิดเผยเป็นโอเพนซอร์สโดยสมบูรณ์โดยห้องปฏิบัติการของศาสตราจารย์ Yue Zhang แห่งมหาวิทยาลัย Westlake ห้องปฏิบัติการประมวลผลภาษาธรรมชาติของมหาวิทยาลัย Westlake (WestlakeNLP) ก่อตั้งขึ้นในเดือนกันยายน 2018 นำโดยศาสตราจารย์ Yue Zhang ศาสตราจารย์ Zhang สำเร็จการศึกษาระดับปริญญาเอกจากมหาวิทยาลัย Oxford และปัจจุบันดำรงตำแหน่งรองคณบดีคณะวิศวกรรมศาสตร์ของมหาวิทยาลัย Westlake เขาเป็นผู้เขียนหนังสือ “Natural Language Processing” ที่ตีพิมพ์โดย Cambridge University Press และเคยดำรงตำแหน่งประธานคณะกรรมการโปรแกรมของงานประชุม NLP ชั้นนำหลายแห่ง เช่น EMNLP 2022
สมาชิกหลักของทีมโครงการนี้รวมถึง Yi-Xuan Weng*, Zhen Lin, Min-Jun Zhu, Qiu-Jie Xie, Pan-Zhong Lu, Qi-Yao Sun และอื่นๆ ผลงานก่อนหน้าของห้องปฏิบัติการรวมถึง Cycle Researcher, DeepReview, DeepScientist (โครงการนักวิทยาศาสตร์ปัญญาประดิษฐ์ที่ทำลายสถิติ SoTA ของสามงานวิจัยล้ำสมัยภายในสองเดือน) เป็นต้น
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22866
