GEMS: ทำให้โมเดลขนาดเล็ก 6B เก่งกว่า Nano Banana 2! แนวทางใหม่สำหรับการสร้างหลายรูปแบบ ผสาน Agent+ความจำ+ทักษะเข้าด้วยกัน

2 days ago • โครงการโอเพนซอร์ส • 29 views

GEMS: Agent-Native Multimodal Generation with Memory and Skills

โมเดลการสร้างหลายรูปแบบ (Multimodal Generation) ในปัจจุบัน แม้จะแสดงผลงานได้ดีในงานหลัก (Mainstream Tasks) แต่ก็ยังมีข้อจำกัดในการจัดการคำสั่งที่ซับซ้อนและงานปลายน้ำ (Downstream Tasks)

ล่าสุด กรอบงานเอเจนต์ (Agent Framework) ขั้นสูง เช่น OpenClaw, Claude Code ได้แสดงให้เห็นถึงความสามารถอันแข็งแกร่งในงานจริงที่ซับซ้อน ด้วยแรงบันดาลใจจากความสำเร็จนี้ ทีมวิจัยจาก Shanghai AI Laboratory ร่วมกับ Nanjing University, The Chinese University of Hong Kong และ Shanghai Jiao Tong University ได้นำประสบการณ์ความสำเร็จของกรอบงานเอเจนต์มาใช้ในขอบเขตการสร้างหลายรูปแบบ และเสนอ GEMS (Agent-Native Multimodal Generation with Memory and Skills)

วิธีการนี้มีเป้าหมายเพื่อปลดปล่อยศักยภาพของโมเดลขนาดเล็ก การทดลองแสดงให้เห็นว่า แม้แต่โมเดลที่มีพารามิเตอร์ 6B ก็สามารถทำงานบางส่วนได้ดีกว่า Nano Banana 2

GEMS: ทำให้โมเดลขนาดเล็ก 6B เก่งกว่า Nano Banana 2! แนวทางใหม่สำหรับการสร้างหลายรูปแบบ ผสาน Agent+ความจำ+ทักษะเข้าด้วยกัน

แก่นกลางของวิธีการ: กรอบงาน GEMS

กรอบงาน GEMS ประกอบด้วยสามคุณสมบัติหลัก ซึ่งมีเป้าหมายเพื่อยกระดับความสามารถของโมเดลการสร้างหลายรูปแบบในการจัดการงานที่ซับซ้อนอย่างเป็นระบบ

1. Agent Loop (วงจรเอเจนต์)
แนะนำกรอบงานความร่วมมือหลายเอเจนต์ที่มีโครงสร้าง ผ่านการปรับให้เหมาะสมแบบวนซ้ำแบบปิด (Closed-loop Iterative Optimization) เพื่อให้มั่นใจว่าผลลัพธ์ที่สร้างขึ้นสอดคล้องกับคำสั่งอย่างค่อยเป็นค่อยไป

2. Agent Memory (ความจำเอเจนต์)
ใช้กลยุทธ์การบีบอัดแบบชั้น (Hierarchical Compression) เพื่อจัดการประวัติการทำงาน (Historical Trajectories) กลยุทธ์นี้รักษาองค์ประกอบข้อเท็จจริงที่สำคัญไว้ ในขณะเดียวกันก็บีบอัดสายโซ่ความคิด (Chain-of-Thought, CoT) ที่ยาวให้กลายเป็นประสบการณ์ที่กระชับ ซึ่งช่วยลดค่าใช้จ่ายของ Token ได้อย่างมีประสิทธิภาพ และเพิ่มประสิทธิภาพของคำแนะนำจากประวัติในงานลำดับยาว

3. Agent Skill (ทักษะเอเจนต์)
สร้างคลังความรู้ผู้เชี่ยวชาญที่สามารถขยายได้ (Skill Library) ระบบสามารถโหลดคำสั่งโดยละเอียดที่สอดคล้องกันตามความต้องการของงานแบบไดนามิก ซึ่งขยายขอบเขตความสามารถของโมเดลได้อย่างมาก

การทดสอบยืนยัน

ทีมวิจัยได้ประเมิน GEMS บนห้างานหลักและส้างานปลายน้ำ โดยอิงจากโมเดลการสร้างที่แตกต่างกัน

ผลการทดลองแสดงให้เห็นว่า บนพื้นฐานของโมเดล Z-Image-Turbo, GEMS มีประสิทธิภาพโดยเฉลี่ยเพิ่มขึ้น 14.22% ในงานหลัก ในงานปลายน้ำ ผลการทำงานของมันแซงหน้าโมเดลฐาน (Baseline Model) ที่ดีที่สุด 8.92% ซึ่งยืนยันประสิทธิผลของกรอบงานนี้

การวิเคราะห์เชิงลึก

ทีมวิจัยได้วิเคราะห์การมีส่วนร่วมของแต่ละโมดูลของ GEMS เพิ่มเติม

การทดลองตัดโมดูลออก (Module Ablation Experiment) (ภาพซ้าย): ด้วยการแนะนำโมดูล Agent Loop, Agent Memory และ Agent Skill เข้ามาอย่างค่อยเป็นค่อยไป ประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างต่อเนื่อง เป็นที่น่าสังเกตว่า โมเดล Z-Image-Turbo ขนาด 6B พารามิเตอร์ ที่ติดตั้งกรอบงาน GEMS แบบสมบูรณ์ สามารถทำได้ดีกว่า Nano Banana 2 บนมาตรฐาน GenEval2
การวิเคราะห์รูปแบบของโมดูลความจำ (ภาพขวา): เปรียบเทียบกลยุทธ์ความจำที่แตกต่างกัน ซึ่งพิสูจน์ประสิทธิผลของการบีบอัดสายโซ่ความคิดให้เป็นประสบการณ์

ทีมยังได้วิเคราะห์ความสัมพันธ์ระหว่างการแลกเปลี่ยน (Trade-off) ของจำนวนรอบการสร้าง (จำนวนครั้งการสร้างภาพโดยเฉลี่ย) กับประสิทธิภาพ ซึ่งแสดงให้เห็นถึงข้อได้เปรียบสองด้านของ GEMS ทั้งในด้านผลลัพธ์และประสิทธิภาพ

การทดลองตัดออกเพิ่มเติมแสดงให้เห็นว่า โมดูล Memory และ Skill ช่วยยกระดับคุณภาพของกระบวนการปรับให้เหมาะสมแบบวนซ้ำได้อย่างมีประสิทธิภาพ จึงช่วยลดจำนวนรอบโดยเฉลี่ยที่จำเป็นต้องใช้เพื่อทำงานให้สำเร็จ

ผลลัพธ์ที่เห็นได้ชัดของโมดูลทักษะ

โมดูล Agent Skills ของ GEMS อนุญาตให้โมเดลเรียกใช้ทักษะเฉพาะตามงานได้ด้วยตนเอง ซึ่งช่วยปรับปรุงคุณภาพการสร้างได้อย่างมีนัยสำคัญ

กรณีศึกษา 1: พระอาทิตย์ขึ้นเหนือภูเขา
- ไม่มีทักษะ: รูปร่างภูเขาดูสมจริง แต่แสงและเงาเรียบง่าย ขาดความงามทางศิลปะ
- มีทักษะ: หลังจากเรียกใช้ทักษะ “การวาดภาพเชิงสุนทรียะ (Aesthetic Painting)” แสงและเงามีระดับชั้นที่หลากหลาย ภาพดูสวยงามมากขึ้น
กรณีศึกษา 2: หนังสือลอยได้
- ไม่มีทักษะ: เอฟเฟกต์หนังสือลอยได้เรียบง่าย ขาดความคิดสร้างสรรค์
- มีทักษะ: หลังจากเรียกใช้ทักษะ “การวาดภาพเชิงสร้างสรรค์ (Creative Painting)” หน้าหนังสือพลิ้วไหว ประดับด้วยดวงดาว บรรยากาศโดยรวมดูเหมือนฝันมากขึ้น

กรณีศึกษาเหล่านี้แสดงให้เห็นอย่างชัดเจนว่าโมดูลทักษะสามารถทำให้ผลลัพธ์ที่สร้างขึ้นไม่เพียงแต่ถูกต้อง แต่ยังมีชีวิตชีวาและเต็มไปด้วยเรื่องราวมากขึ้นได้อย่างไร

สรุป

กรอบงาน GEMS พิสูจน์ให้เห็นว่ากลยุทธ์การจัดการในรูปแบบเอเจนต์สามารถชดเชยข้อบกพร่องของความสามารถของโมเดลพื้นฐานได้อย่างมีประสิทธิภาพ ด้วยการมอบ “การคิดแบบวนซ้ำ” ที่มีโครงสร้าง “ความจำระยะยาว” และ “ทักษะ” ที่สามารถเรียกใช้ตามความต้องการให้กับโมเดล แม้แต่โมเดลโอเพ่นซอร์สขนาดเบาก็สามารถแสดงศักยภาพที่เทียบเคียงหรือแม้แต่แซงหน้าโมเดลปิด (Closed-source Model) ขนาดใหญ่กว่าในงานที่ซับซ้อนได้ ซึ่งเป็นกรอบอ้างอิงที่มีคุณค่าสำหรับวิวัฒนาการของระบบการสร้างหลายรูปแบบในอนาคต

ที่อยู่บทความวิจัย: https://arxiv.org/abs/2603.28088
หน้าแรกโครงการ: https://gems-gen.github.io/
ที่เก็บโค้ด: https://github.com/lcqysl/GEMS

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง