SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

เมื่อเร็วๆ นี้ ผลงานวิจัยจาก MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง และทีมงานร่วม — “UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors” — ได้รับการยอมรับอย่างเป็นทางการให้ตีพิมพ์ใน SIGGRAPH 2026 ซึ่งเป็นการประชุมระดับสูงสุดด้านคอมพิวเตอร์กราฟิกส์

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

  • ที่อยู่บทความ: https://arxiv.org/pdf/2605.00658
  • คลังโค้ด: https://github.com/houyuanchen111/UniVidX
  • หน้าโครงการ: https://huggingface.co/houyuanchen/UniVidX

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 1: รูปนี้แสดงความสามารถในการสร้างแบบจำลองแบบรวมของ UniVidX ในการสร้างวิดีโอแบบหลายรูปแบบ ครอบคลุมสามกระบวนทัศน์หลัก ได้แก่ Text→X, X→X และ Text&X→X ส่วนบนของรูปคือ UniVid-Intrinsic รองรับงานต่างๆ เช่น การเรนเดอร์ย้อนกลับ การปรับแสงใหม่ การสร้าง Intrinsic เป็นต้น ส่วนล่างคือ UniVid-Alpha ซึ่งเน้นที่การสร้าง RGBA การตัดวิดีโอ และการเติมเต็มวิดีโอ ผลลัพธ์แสดงให้เห็นว่าเฟรมเวิร์กเดียวสามารถทำงานวิดีโอกราฟิกที่ซับซ้อนซึ่งเดิมต้องใช้โมเดลอิสระหลายตัวได้

งานวิจัยนี้นำเสนอเฟรมเวิร์กแบบรวม UniVidX สำหรับการสร้างและทำความเข้าใจวิดีโอแบบหลายรูปแบบ ซึ่งบรรลุประสิทธิภาพที่ดีที่สุดในปัจจุบันหรือประสบความสำเร็จในการก้าวข้ามขีดจำกัดในงานวิดีโอกราฟิกหลายรายการ ถือเป็นก้าวสำคัญของโมเดลการแพร่กระจายวิดีโอในทิศทางของการทำให้เป็นสากล

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 2: รูปนี้แสดงโครงสร้างหลักของ UniVidX ซึ่งรวมถึงกลไกการปิดบังเงื่อนไขแบบสุ่ม การแยก LoRA แบบเกต และการใส่ใจตนเองข้ามรูปแบบ ในระหว่างการฝึก รูปแบบต่างๆ จะถูกแบ่งออกเป็นเงื่อนไขหรือเป้าหมายแบบไดนามิก ทำให้โมเดลมีความสามารถในการสร้างแบบรอบทิศทาง ด้วยกลไกการใส่ใจร่วมกันและการปรับพารามิเตอร์แบบโมดูลาร์ โมเดลจึงรักษาความสอดคล้องกันในขณะที่หลีกเลี่ยงการรบกวนระหว่างรูปแบบต่างๆ

เป็นเวลานานที่การพัฒนาด้านวิดีโอกราฟิกและการสร้างวิดีโอมีลักษณะการแยกส่วนของงานอย่างชัดเจน ปัญหาต่างๆ มักต้องพึ่งพาโมเดลอิสระในการสร้างแบบจำลอง เช่น การเรนเดอร์ย้อนกลับวิดีโอ การปรับแสงวิดีโอใหม่ การตัดวิดีโอ การเติมเต็มวิดีโอ และการสร้างวิดีโอจากข้อความ ซึ่งโดยปกติแล้วต้องฝึกโมเดลเฉพาะสำหรับแต่ละงาน

วิธีการสร้างแบบจำลองที่เน้นการแมปอินพุต-เอาต์พุตแบบตายตัวนี้ ไม่เพียงแต่จำกัดความสามารถของโมเดลในการปรับตัวให้เข้ากับสถานการณ์จริงที่ซับซ้อน แต่ยังขัดขวางการแบ่งปันและการถ่ายโอนความรู้ข้ามงานอีกด้วย ในการใช้งานจริง เนื้อหาวิดีโอมักเกี่ยวข้องกับการรวมกันของหลายรูปแบบและการดำเนินการหลายอย่าง ทำให้วิธีการดั้งเดิมยากที่จะให้โซลูชันที่รวมเป็นหนึ่งเดียวและมีประสิทธิภาพ

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 3: รูปนี้เปรียบเทียบประสิทธิภาพของ UniVid-Intrinsic กับวิธีการที่มีอยู่ในงานสร้าง Intrinsic เมื่อเทียบกับปัญหาการไม่ตรงกันของรูปแบบและการขาดรายละเอียดในวิธีการพื้นฐาน UniVidX รักษาความสอดคล้องที่สูงขึ้นระหว่าง RGB ค่าการสะท้อนแสง และค่าปกติ ผลลัพธ์แสดงให้เห็นว่าวิธีนี้สามารถสร้างลำดับวิดีโอแบบหลายรูปแบบที่มีความสอดคล้องทางกายภาพได้อย่างเสถียร

เพื่อแก้ปัญหานี้ UniVidX ได้ทำการปรับโครงสร้างกระบวนทัศน์การสร้างแบบจำลองอย่างเป็นระบบ แนวคิดหลักของเฟรมเวิร์กนี้คือการรวมงานวิดีโอกราฟิกต่างๆ เข้าเป็นปัญหาการสร้างแบบมีเงื่อนไขหลายรูปแบบ ทำให้รูปแบบใดๆ ก็สามารถเป็นได้ทั้งเงื่อนไขอินพุตและเป้าหมายการสร้าง ทำให้เกิดความสามารถในการสร้างแบบจำลองแบบรวม “จากรูปแบบใดๆ ไปยังรูปแบบใดๆ” ในพื้นที่รวมนี้ ข้อมูลต่างๆ เช่น วิดีโอ RGB ค่าปกติ ค่าการสะท้อนแสง แสง ช่อง Alpha และพื้นหน้า/พื้นหลัง จะไม่แยกจากกันอีกต่อไป แต่ถูกสร้างแบบจำลองร่วมกันผ่านกลไกการสร้างที่ใช้ร่วมกัน

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 4: รูปนี้แสดงผลการประเมินเชิงปริมาณของ UniVidX ในงานสร้าง Intrinsic และ RGBA ไม่ว่าจะเป็นคะแนนผู้ใช้หรือตัวชี้วัดความสอดคล้องของเวลา UniVidX มีประสิทธิภาพดีกว่าวิธีการที่มีอยู่ สิ่งที่น่าสนใจคือ วิธีนี้สามารถสร้างการแยกย่อยหลายชั้นได้ ซึ่งสะท้อนถึงความสามารถในการสร้างแบบจำลองแบบรวมที่แข็งแกร่งยิ่งขึ้น

เพื่อให้บรรลุความสามารถแบบรวมนี้ UniVidX ได้นำเสนอการออกแบบที่สำคัญหลายประการในโครงสร้างโมเดลและกลไกการฝึก

ประการแรก ผ่านกลไกการปิดบังเงื่อนไขแบบสุ่ม โมเดลจะเปลี่ยนวิธีการแบ่งรูปแบบอินพุตและเอาต์พุตอย่างต่อเนื่องระหว่างการฝึก ทำให้เรียนรู้ความสัมพันธ์การสร้างในทุกทิศทาง แทนที่จะเป็นรูปแบบการแมปแบบตายตัว กลไกนี้ทำให้โมเดลมีความสามารถในการสรุปทั่วไปที่แข็งแกร่งขึ้น ทำให้สามารถปรับให้เข้ากับความต้องการงานที่หลากหลาย

ประการที่สอง ผ่านการแยก LoRA แบบเกต โมเดลจะจัดสรรพื้นที่พารามิเตอร์อิสระสำหรับรูปแบบต่างๆ และเปิดใช้งานแบบไดนามิกเมื่อรูปแบบที่เกี่ยวข้องเป็นเป้าหมายการสร้าง ซึ่งช่วยหลีกเลี่ยงการรบกวนพารามิเตอร์ระหว่างรูปแบบต่างๆ ได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาความสามารถในการสร้างดั้งเดิมของโมเดลการแพร่กระจายที่ผ่านการฝึกไว้ล่วงหน้า

นอกจากนี้ กลไกการใส่ใจตนเองข้ามรูปแบบยังใช้การแบ่งปันข้อมูลระหว่างรูปแบบต่างๆ เพื่อให้เกิดข้อจำกัดแบบรวมในระดับเรขาคณิต แสง และความหมาย ซึ่งช่วยเพิ่มความสอดคล้องและความเสถียรของผลลัพธ์การสร้างได้อย่างมีนัยสำคัญ

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 5: ตารางนี้เปรียบเทียบประสิทธิภาพของ UniVid-Intrinsic กับวิธีการที่เป็นตัวแทนหลายวิธีในงานค่าการสะท้อนแสง แสง ค่าปกติ และการเรนเดอร์ไปข้างหน้าอย่างเป็นระบบ UniVidX มีประสิทธิภาพโดยรวมดีกว่าในตัวชี้วัด เช่น PSNR, SSIM และ LPIPS ผลลัพธ์ยืนยันข้อได้เปรียบโดยรวมของเฟรมเวิร์กแบบรวมในสถานการณ์หลายงาน

ในการนำไปใช้จริง ทีมวิจัยได้สร้างโมเดลตัวแทนสองตัวตามเฟรมเวิร์กนี้เพื่อครอบคลุมงานวิดีโอกราฟิกประเภทต่างๆ UniVid-Intrinsic เน้นที่คุณสมบัติ Intrinsic สามารถจัดการรูปแบบต่างๆ เช่น RGB ค่าการสะท้อนแสง การแผ่รังสี และค่าปกติได้อย่างรวมเป็นหนึ่ง รองรับงานต่างๆ เช่น การสร้าง Intrinsic จากข้อความ การเรนเดอร์ย้อนกลับวิดีโอ การเรนเดอร์ไปข้างหน้า และการปรับแสงวิดีโอใหม่

ในขณะเดียวกัน UniVid-Alpha มุ่งเน้นไปที่การแยกย่อยและการสังเคราะห์ในระดับวิดีโอ โดยสร้างแบบจำลองวิดีโอผสม พื้นหน้า พื้นหลัง และช่อง Alpha อย่างรวมเป็นหนึ่ง รองรับการใช้งานที่สำคัญ เช่น การตัดวิดีโอ การเติมเต็มวิดีโอ และการแทนที่พื้นหน้าและพื้นหลัง โมเดลทั้งสองนี้รองรับกระบวนทัศน์การสร้างสามแบบ ได้แก่ Text→X, X→X และ Text&X→X ภายใต้เฟรมเวิร์กแบบรวม ครอบคลุมงานวิดีโอทั่วไปสิบห้าประเภท ซึ่งยืนยันถึงความสามารถในการนำไปใช้อย่างกว้างขวางของวิธีนี้

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 6: รูปนี้แสดงผลภาพของวิธีการต่างๆ ในงานเรนเดอร์ย้อนกลับและเรนเดอร์ไปข้างหน้า เมื่อเทียบกับปัญหาสิ่งแปลกปลอมและการสูญเสียรายละเอียดในวิธีการอื่น ผลลัพธ์การสร้างของ UniVidX ใกล้เคียงกับการกระจายจริงมากขึ้น โดยเฉพาะอย่างยิ่งในด้านความสอดคล้องของแสงและรายละเอียดเรขาคณิต แสดงให้เห็นถึงความเสถียรและความแม่นยำที่สูงขึ้น

สิ่งที่น่าสนใจคือ UniVidX แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในด้านประสิทธิภาพของข้อมูล ผลการทดลองแสดงให้เห็นว่า แม้จะมีข้อมูลการฝึกน้อยกว่าหนึ่งพันวิดีโอ โมเดลก็ยังสามารถบรรลุหรือเหนือกว่าวิธีการที่ดีที่สุดที่มีอยู่ในหลายงาน และรักษาความสามารถในการสรุปทั่วไปที่ดีในสถานการณ์จริงและข้อมูลนอกการกระจาย ปรากฏการณ์นี้บ่งชี้ว่าวิธีนี้ไม่ได้พึ่งพาการเรียนรู้จากข้อมูลงานขนาดใหญ่ แต่ใช้การออกแบบโครงสร้างและกลยุทธ์การฝึกที่เหมาะสม เพื่อกระตุ้นและใช้ประโยชน์จากความรู้ล่วงหน้าเกี่ยวกับโลกที่มีพลวัตซึ่งฝังอยู่ในโมเดลการแพร่กระจายวิดีโอที่ผ่านการฝึกไว้ล่วงหน้า

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 7: ตารางนี้แสดงประสิทธิภาพการประมาณค่าการสะท้อนแสงของ UniVidX บนชุดข้อมูล MAW ในโลกจริง แม้จะฝึกเฉพาะกับข้อมูลสังเคราะห์ โมเดลก็ยังได้ตัวชี้วัดความคลาดเคลื่อนของความเข้มที่ดีที่สุด และรักษาความสามารถในการแข่งขันในความคลาดเคลื่อนของสี ผลลัพธ์แสดงให้เห็นว่าวิธีนี้มีความสามารถในการสรุปทั่วไปข้ามโดเมนที่ดี

ในการประเมินระบบ UniVidX มีประสิทธิภาพนำในงานสำคัญหลายงาน ในงานเรนเดอร์ย้อนกลับและเรนเดอร์ไปข้างหน้า โมเดลมีประสิทธิภาพโดยรวมดีกว่าวิธีการโมเดลการแพร่กระจายที่มีอยู่ใน PSNR, SSIM และตัวชี้วัดการรับรู้ ในงานประมาณค่าปกติ แม้จะลดขนาดข้อมูลการฝึกอย่างมีนัยสำคัญ ก็ยังมีประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลเฉพาะ ในงานตัดวิดีโอ ในฐานะโมเดลที่ไม่ต้องการข้อมูลเสริมเพิ่มเติม ผลลัพธ์เกินกว่าวิธีการหลายวิธีที่ต้องใช้อินพุต mask ในขณะเดียวกัน ในงานสร้างที่ขับเคลื่อนด้วยข้อความ โมเดลได้รับการประเมินที่สูงขึ้นในด้านคุณภาพภาพ ความสอดคล้องทางความหมาย และความสอดคล้องข้ามรูปแบบ และมีความสอดคล้องของเวลาที่ดีกว่าวิธีการระดับภาพอย่างมีนัยสำคัญ

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 8: ตารางนี้เปรียบเทียบประสิทธิภาพของ UniVidX กับวิธีการประมาณค่าปกติเฉพาะหลายวิธี แม้จะมีขนาดข้อมูลการฝึกที่เล็กกว่าอย่างมีนัยสำคัญ UniVidX ก็ยังมีความแม่นยำใกล้เคียงหรือดีกว่าบางโมเดลเฉพาะ ผลลัพธ์นี้สะท้อนถึงข้อได้เปรียบด้านประสิทธิภาพข้อมูลสูงที่เกิดจากการสร้างแบบจำลองแบบรวมโดยใช้ความรู้ล่วงหน้าจากการแพร่กระจาย

จากมุมมองที่สูงขึ้น คุณค่าของ UniVidX ไม่ได้อยู่แค่การปรับปรุงประสิทธิภาพของงานเดี่ยวเท่านั้น แต่ยังอยู่ที่การรวมและขยายความสามารถของระบบ เนื่องจากทุกรูปแบบใช้เฟรมเวิร์กการสร้างร่วมกัน งานต่างๆ จึงสามารถรวมกันได้อย่างยืดหยุ่นภายในโมเดลเดียวกัน ซึ่งสนับสนุนกระบวนการแก้ไขและสร้างเนื้อหาวิดีโอที่ซับซ้อนยิ่งขึ้น

ตัวอย่างเช่น สามารถทำการเรนเดอร์ย้อนกลับวิดีโอก่อนเพื่อรับคุณสมบัติทางกายภาพ จากนั้นปรับแสงใหม่หรือแก้ไขวัสดุตามข้อความ หรือทำการเติมเต็มวิดีโอและแทนที่พื้นหลังผ่านการแยกย่อย Alpha ความสามารถในการรวมหลายรูปแบบนี้ทำให้ UniVidX ขยายจากโมเดลเดียวเป็นเอนจิ้นวิดีโอกราฟิกแบบรวมสำหรับการใช้งานที่ซับซ้อน

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

รูปที่ 9: ตารางนี้แสดงประสิทธิภาพเชิงปริมาณของ UniVid-Alpha ในงานตัดวิดีโอ ในฐานะวิธีการที่ไม่ต้องใช้อินพุต mask เสริม UniVidX มีประสิทธิภาพดีกว่าวิธีการที่มีอยู่หลายวิธีในตัวชี้วัดสำคัญ เช่น MAD และ MSE ผลลัพธ์แสดงให้เห็นว่าความรู้ล่วงหน้าจากโมเดลการแพร่กระจายสามารถแทนที่สัญญาณการแบ่งส่วนแบบดั้งเดิมได้อย่างมีประสิทธิภาพ

การนำเสนอ UniVidX ถือเป็นจุดเปลี่ยนที่โมเดลการแพร่กระจายวิดีโอกำลังพัฒนาจากเครื่องมือสำหรับงานเดี่ยวไปเป็นโมเดลพื้นฐานวิดีโอกราฟิกทั่วไป งานนี้ยืนยันทิศทางสำคัญ: ภายใต้เงื่อนไขของการมีความรู้ล่วงหน้าที่ผ่านการฝึกอย่างแข็งแกร่ง ด้วยกลไกการสร้างแบบจำลองหลายรูปแบบที่เหมาะสม งานดั้งเดิมในกราฟิกส์ เช่น การแยกย่อย การประมาณค่า การสร้าง และการแก้ไข สามารถรวมเข้าด้วยกันในเฟรมเวิร์กเดียวกัน ความก้าวหน้านี้ไม่เพียงแต่เปิดเส้นทางเทคโนโลยีใหม่สำหรับการสร้างและทำความเข้าใจวิดีโอ แต่ยังวางรากฐานการปฏิบัติที่มั่นคงสำหรับสถานการณ์การใช้งาน เช่น การจำลองยานยนต์อัตโนมัติ ปัญญาประดิษฐ์ที่มีกายภาพ และการผลิตภาพยนตร์

แนะนำผู้เขียน

ผู้เขียนหลักของบทความนี้คือ Chen Houyuan นักศึกษาปริญญาตรีจากมหาวิทยาลัยหนานจิง ซึ่งกำลังจะเข้าร่วม MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกงเพื่อดำเนินการวิจัย ผู้เขียนที่ติดต่อได้คือ Rao Anyi อาจารย์จาก MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง ที่น่าสนใจคือ Lvmin Zhang นักศึกษาปริญญาเอกจากมหาวิทยาลัยสแตนฟอร์ดก็เป็นหนึ่งในผู้เขียนบทความนี้เช่นกัน เขาเคยร่วมงานกับ Rao Anyi ในการสร้างผลงานที่เป็นตัวแทน เช่น ControlNet และ IC-Light โดย ControlNet เคยได้รับรางวัล ICCV Marr Prize นอกจากนี้ อาจารย์ Zhao Hao จากมหาวิทยาลัยชิงหัวยังให้คำแนะนำที่สำคัญสำหรับงานนี้ ซึ่งร่วมกันผลักดันให้โครงการสำเร็จลุล่วง

© THE END


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34211

Like (0)
Previous 1 day ago
Next 1 day ago

相关推荐