MoGraphGPT: สร้างฉากปฏิสัมพันธ์ซับซ้อนโดยไม่ต้องเขียนโค้ด ภาษาธรรมชาติ + การขีดเขียนช่วยให้ความคิดสร้างสรรค์เป็นภาพ

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 7 views

ต้องการสร้างเกมเว็บขนาดเล็ก แอนิเมชันแบบโต้ตอบ หรือการสาธิตการสอนอย่างรวดเร็ว แต่ติดขัดกับตรรกะโค้ดที่ซับซ้อนและการดีบั๊กการโต้ตอบขององค์ประกอบหลายอย่าง? แม้ว่าโมเดลภาษาขนาดใหญ่หรือ AI Agent ในปัจจุบันจะสามารถช่วยสร้างโค้ดและสร้างฉากโต้ตอบได้ แต่เมื่อต้องจัดการกับการโต้ตอบขององค์ประกอบหลายอย่างก็ยังคงมีข้อผิดพลาดได้ง่าย และวิธีการโต้ตอบแบบข้อความล้วนยากที่จะรองรับการปรับแต่งภาพที่ตรงไปตรงมา

เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยฮ่องกงแบปติสต์ มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง มหาวิทยาลัยนครฮ่องกง และมหาวิทยาลัยเซินเจิ้น ได้เสนอระบบนวัตกรรมชื่อ MoGraphGPT ระบบนี้ผสานโมเดลภาษาขนาดใหญ่แบบโมดูลาร์ที่รับรู้บริบทกับการควบคุมแบบกราฟิกที่ใช้งานง่าย ช่วยให้ผู้ใช้สามารถสร้างฉากโต้ตอบ 2 มิติที่มีตรรกะซับซ้อนได้อย่างรวดเร็วโดยไม่ต้องเขียนโค้ด ผ่านคำอธิบายภาษาธรรมชาติและการขีดเขียนแบบง่ายๆ บนผ้าใบ ผลงานวิจัยนี้ได้รับการตีพิมพ์ในวารสารชั้นนำด้านคอมพิวเตอร์กราฟิกส์และการแสดงภาพ IEEE Transactions on Visualization and Computer Graphics

ผู้เขียนบทความวิจัยประกอบด้วย: ผู้ช่วยศาสตราจารย์ Hui Ye จากภาควิชาสื่อเชิงโต้ตอบ คณะนิเทศศาสตร์ มหาวิทยาลัยฮ่องกงแบปติสต์, Chufeng Xiao จากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง, Jiaye Leng นักศึกษาปริญญาเอกจากวิทยาลัยสื่อสร้างสรรค์ มหาวิทยาลัยนครฮ่องกง และรองศาสตราจารย์ Pengfei Xu จากวิทยาลัยคอมพิวเตอร์และซอฟต์แวร์ มหาวิทยาลัยเซินเจิ้น ผู้เขียนหลักในการติดต่อคือศาสตราจารย์ Hongbo Fu หัวหน้าภาควิชาชั่วคราว แผนกศิลปะและกลไกสร้างสรรค์ มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง ทีมวิจัยนี้มุ่งมั่นศึกษาวิจัยข้ามสาขาระหว่างคอมพิวเตอร์กราฟิกส์ ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ และคอมพิวเตอร์วิทัศน์มาอย่างยาวนาน

ชื่อบทความวิจัย: MoGraphGPT: Creating Interactive Scenes Using Modular LLM and Graphical Control
ผู้เขียน: Hui Ye (HKBU/HKUST), Chufeng Xiao (HKUST), Jiaye Leng (CityU), Pengfei Xu (SZU), Hongbo Fu (HKUST)
วารสารที่ตีพิมพ์: IEEE Transactions on Visualization and Computer Graphics (TVCG) 2026
ลิงก์บทความวิจัย: https://ieeexplore.ieee.org/abstract/document/11410096

1. พื้นหลังการวิจัย: 4 ปัญหาหลักของการสร้างฉากโต้ตอบด้วย LLM

เมื่อใช้ LLM หรือ Agent ในการสร้างฉากโต้ตอบ 2 มิติ (เช่น เกม แอนิเมชัน) หรือโค้ดโดยตรง ผู้สร้างมักเผชิญกับความท้าทายดังต่อไปนี้:

คุณภาพโค้ดน่าเป็นห่วง: เมื่อเกี่ยวข้องกับตรรกะการโต้ตอบที่ซับซ้อนซึ่งมีองค์ประกอบหลายอย่าง (เช่น ตัวเอก สัตว์ประหลาด อุปสรรค) LLM มักสร้างโค้ดที่ไม่สมบูรณ์หรือมีข้อผิดพลาด
ขาดความเป็นอิสระในการแก้ไข: โครงสร้างการสนทนาเชิงเส้นของ LLM ทำให้การแก้ไขเป็นเรื่องยาก ตัวอย่างเช่น การปรับพฤติกรรมของแท่นอาจส่งผลกระทบต่อองค์ประกอบอื่นที่ไม่เกี่ยวข้องโดยไม่ตั้งใจ
ขาดการควบคุมแบบกราฟิก: การอธิบายข้อมูลเชิงพื้นที่ด้วยข้อความเพียงอย่างเดียวทำได้ยาก ตัวอย่างเช่น การอธิบายด้วยคำพูดเพื่อให้วัตถุเคลื่อนที่ไปตามเส้นโค้งรูปตัว S เฉพาะเจาะจงนั้นทั้งยุ่งยากและไม่แม่นยำ
การควบคุมที่แม่นยำทำได้ยากมาก: หลังจากสร้างผลลัพธ์แล้ว หากต้องการปรับแต่งพารามิเตอร์ เช่น ความเร็ว ความสูงของการเด้ง ผู้ใช้ต้องแก้ไขคำสั่งซ้ำๆ กระบวนการนี้เหมือน “เปิดกล่องเซอร์ไพรส์” ซึ่งไม่มีประสิทธิภาพ

2. เทคโนโลยีหลัก: MoGraphGPT แก้ปัญหาอย่างไร?

เพื่อแก้ไขปัญหาดังกล่าว ทีมวิจัยได้เสนอโครงสร้าง MoGraphGPT ซึ่งมีกลไกสำคัญสองประการ:

1. LLM แบบโมดูลาร์ที่รับรู้บริบท

MoGraphGPT ละทิ้งวิธีการมอบความต้องการทั้งหมดให้ LLM เดียวจัดการ แต่ใช้โครงสร้างการจัดการแบบแบ่งชั้นจากบนลงล่าง:
* โมดูลเฉพาะตัวอิสระ: องค์ประกอบแต่ละอย่างในฉาก (เช่น “ลิง”, “กล้วย”) มีเซสชัน LLM เป็นของตัวเอง ผู้ใช้สามารถปรับพฤติกรรมขององค์ประกอบใดองค์ประกอบหนึ่งแยกกันได้ โดยไม่ต้องกังวลว่าจะทำลายโค้ดขององค์ประกอบอื่น
* โมดูลประสานงานกลาง: ทำหน้าที่เป็นผู้ประสานงาน จัดการตรรกะการโต้ตอบระหว่างองค์ประกอบ (เช่น “ลิงกินกล้วยได้หนึ่งคะแนน”) โมดูลอิสระแต่ละโมดูลจะแยกตัวแปรและฟังก์ชันของตนเป็นบริบทให้โมดูลกลางเรียกใช้ ทำให้เกิดความเป็นเอกภาพระหว่างความเป็นอิสระและการทำงานร่วมกัน

2. การควบคุมแบบกราฟิกที่ผสานอย่างราบรื่นและการปรับแต่ง UI ที่แม่นยำ

MoGraphGPT ทำให้กระบวนการสร้างโค้ดเป็นภาพ มอบความสามารถในการควบคุมที่แม่นยำแก่ผู้ใช้:
* ตัวแทนกราฟิกที่ชี้เป้าได้: ผู้ใช้สามารถทำเครื่องหมายจุด วาดเส้น วาดเส้นโค้ง หรือวงบริเวณบนผ้าใบของระบบโดยตรง (ระบุเป็น P1, L1, C1, R1 เป็นต้น) และอ้างอิงถึงโดยตรงเมื่อป้อนคำสั่ง (ตัวอย่าง: “ให้แท่นเคลื่อนที่ไปมาตามเส้นโค้ง C1”) ระบบจะแปลงภาพวาดด้วยมือเหล่านี้เป็นพารามิเตอร์พิกัดที่แม่นยำโดยอัตโนมัติ
* สไลด์ควบคุมที่สร้างขึ้นอัตโนมัติ: หลังจากสร้างตรรกะการโต้ตอบแล้ว ระบบจะใช้ LLM เฉพาะทางเพื่อวิเคราะห์พารามิเตอร์สำคัญในโค้ดโดยอัตโนมัติ และสร้างสไลด์ควบคุมที่สอดคล้องกันทางด้านขวาของอินเทอร์เฟซแบบไดนามิก ผู้ใช้สามารถปรับพารามิเตอร์ เช่น ความเร็วในการเคลื่อนที่ ขนาดของแรงโน้มถ่วง ได้แบบเรียลไทม์โดยการลากสไลด์ ทำให้ได้ประสบการณ์การแก้ไขที่เห็นผลทันที

3. ผลลัพธ์และการเปรียบเทียบ

ทีมวิจัยได้ทำการทดลองเปรียบเทียบ MoGraphGPT กับผู้ช่วยการเขียนโปรแกรม AI ขั้นสูงในอุตสาหกรรมปัจจุบัน Cursor Composer:
* ประสิทธิภาพเพิ่มขึ้นอย่างเห็นได้ชัด: ในการทำงานฟื้นฟูฉากโต้ตอบเดียวกันให้สมบูรณ์ เวลาเฉลี่ยที่ MoGraphGPT ใช้สั้นลงประมาณ 73.8% เมื่อเทียบกับ Cursor
* ลดต้นทุนการลองผิดลองถูกได้อย่างมาก: จำนวนคำสั่งและความยาวข้อความที่ผู้ใช้ต้องป้อนลดลง 68.4% และ 88.9% ตามลำดับ ในการให้คะแนนเชิงอัตวิสัย เช่น ความง่ายในการใช้งาน ความสามารถในการควบคุม และประสิทธิภาพโดยรวม ก็ดีกว่าฐานเปรียบเทียบอย่างมีนัยสำคัญ
* ไม่มีบั๊กร้ายแรงอีกต่อไป: การทดสอบตาม LLM-as-a-Judge และสภาพแวดล้อมการคอมไพล์จริงแสดงให้เห็นว่า โค้ดที่สร้างโดย MoGraphGPT มีจำนวนข้อผิดพลาดร้ายแรงและข้อผิดพลาดร้ายแรงน้อยกว่าอย่างมากเมื่อเทียบกับเครื่องมือเปรียบเทียบ

การสร้างสรรค์แบบเปิด: ปลดปล่อยความคิดสร้างสรรค์ไร้ขีดจำกัด

ในการทดสอบการสร้างสรรค์อิสระ ไม่ว่าจะเป็นผู้เริ่มต้นที่ไม่มีพื้นฐานการเขียนโปรแกรมหรือนักพัฒนาที่มีประสบการณ์ ล้วนสามารถใช้ MoGraphGPT สร้างผลงานที่สมบูรณ์ได้ภายใน 10 ถึง 30 นาที ครอบคลุมแอปพลิเคชันหลากหลายประเภท เช่น เกมสองคน เกมยิง การสาธิตแอนิเมชันการสอน ภาพประกอบเคลื่อนไหวสำหรับบทความวิชาการ และ Demo การโต้ตอบบนเว็บ

4. สรุปและแนวโน้มในอนาคต

MoGraphGPT สร้างสะพานเชื่อมระหว่างการสร้างโค้ดด้วยโมเดลภาษาขนาดใหญ่และการแก้ไขแบบไม่ใช้โค้ดที่มองเห็นได้ กลยุทธ์การจัดตาราง LLM แบบโมดูลาร์และการควบคุมแบบกราฟิกที่เป็นแกนกลาง ไม่เพียงแต่แก้ปัญหาการเชื่อมโยงโค้ดในฉากที่ซับซ้อน แต่ยังให้รูปแบบการโต้ตอบใหม่สำหรับการสร้างแอปพลิเคชันที่ซับซ้อนโดยเอเจนต์หลายตัวทำงานร่วมกันในอนาคต

ในอนาคต ทีมวางแผนที่จะสำรวจเพิ่มเติมเกี่ยวกับการสนับสนุนการสร้างสรรค์แบบโต้ตอบสำหรับฉากที่ใหญ่ขึ้น กลไกการแบ่งระดับการมองเห็นโค้ด และตรวจสอบศักยภาพในการเชื่อมต่อไปป์ไลน์กับเอ็นจิ้นระดับมืออาชีพอื่นๆ