LINVIDEO: ไม่ต้องฝึกข้อมูลใหม่ ตัวแบบแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า ความก้าวหน้าใหม่ใน CVPR 2024

2026年3月10日 am11:40 • การอนุมานโมเดลขนาดใหญ่ • 190 views

ไม่ต้องฝึกข้อมูลใหม่ โมเดลแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า: ความก้าวหน้าใหม่ใน CVPR 2024

การสร้างวิดีโอได้เข้าสู่ยุคขนาดใหญ่ แต่ต้นทุนการคำนวณที่ตามมาก็เพิ่มขึ้นอย่างรวดเร็ว การสร้างวิดีโอ 10 วินาที อาจมีโทเคนมากกว่า 50,000 ตัว และกลไกความใส่ใจตนเอง (self-attention) หลักของโมเดลมีความซับซ้อน O(n²) ทำให้กระบวนการอนุมานช้าอย่างมากและใช้งานจริงได้ยาก

การแทนที่ความใส่ใจตนเองด้วยความใส่ใจเชิงเส้น (linear attention) ที่มีความซับซ้อน O(n) เป็นทางออกในอุดมคติ แต่ความเป็นจริงคือ: การแทนที่โดยตรงจะทำให้คุณภาพการสร้างของโมเดลลดลงอย่างรุนแรง เพื่อแก้ปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง มหาวิทยาลัยการบินและอวกาศปักกิ่ง มหาวิทยาลัยเทคโนโลยีหนานหยาง และหน่วยงานอื่น ๆ ได้เสนอ LINVIDEO นี่คือเฟรมเวิร์กหลังการฝึกที่ไม่ต้องการข้อมูลเพิ่มเติมหรือการฝึกล่วงหน้าใหม่ สามารถทำการแทนที่เชิงเส้นในสัดส่วนสูงสำหรับโมเดลแพร่กระจายวิดีโอได้ ในขณะที่ยังคงรักษาคุณภาพการสร้างไว้

LINVIDEO: ไม่ต้องฝึกข้อมูลใหม่ ตัวแบบแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า ความก้าวหน้าใหม่ใน CVPR 2024

△ การเปรียบเทียบผลการสร้างวิดีโอของโมเดล 14B: (บน) โมเดลดั้งเดิม; (กลาง) LINVIDEO (เร่งความเร็ว 1.71 เท่า); (ล่าง) LINVIDEO ร่วมกับการกลั่น 4 ขั้นตอน (เร่งความเร็ว 20.9 เท่า)

งานวิจัยนี้ได้รับการตีพิมพ์ใน CVPR 2024 บนโมเดล Wan 14B, LINVIDEO บรรลุ การเร่งความเร็วแบบ end-to-end 1.71 เท่า; หากรวมกับเทคนิคการกลั่น 4 ขั้นตอน อัตราการเร่งความเร็วสามารถสูงถึง 20.9 เท่า โดยที่คุณภาพวิดีโอแทบไม่ลดลง

ทำไมโมเดลแพร่กระจายวิดีโอจึง “ทำให้เป็นเชิงเส้นได้ยาก”?

LINVIDEO ตอบคำถามสำคัญก่อน: ทำไมความใส่ใจเชิงเส้นจึงใช้งานได้ในบางงาน แต่ในโมเดลแพร่กระจายวิดีโอมักจะ “พังทันทีที่เปลี่ยน”? สาเหตุไม่ใช่เพียงเพราะ “ความใส่ใจเชิงเส้นมีข้อผิดพลาดประมาณค่ามากกว่า” เท่านั้น แต่ยังอยู่ที่ ความไวสูงของกระบวนการเปลี่ยนเอง โมดูลความใส่ใจในเลเยอร์ต่าง ๆ มีส่วนร่วมต่อคุณภาพการสร้างสุดท้ายไม่เท่ากัน: การเปลี่ยนบางเลเยอร์จะทำให้คุณภาพลดลงอย่างเห็นได้ชัด ในขณะที่การเปลี่ยนเลเยอร์อื่นมีผลกระทบน้อยมาก หากใช้กฎด้วยมือหรือกลยุทธ์แบบฮิวริสติกในการเลือกเลเยอร์ที่จะเปลี่ยน อาจตกอยู่ในภาวะที่ “ยิ่งเปลี่ยนมาก คุณภาพยิ่งลดลงรุนแรง” หรือเพื่อรักษาคุณภาพจึงไม่กล้าเปลี่ยนเลเยอร์มาก ทำให้ผลการเร่งความเร็วสุดท้ายไม่ชัดเจน

△ การวิเคราะห์ความไวของเลเยอร์ความใส่ใจ: ผลกระทบของการเปลี่ยนเลเยอร์ต่าง ๆ ต่อคุณภาพการสร้าง

นอกจากนี้ การใช้ข้อผิดพลาดกำลังสองเฉลี่ย (MSE) อย่างง่ายเพื่อจัดตำแหน่งเอาต์พุต จะทำให้เกิดปัญหาการสั่นไหวตามเวลา (temporal jitter) และการกระพริบของภาพอย่างชัดเจน

△ ปัญหาผลการสร้างที่เกิดจากการใช้ MSE เพื่อจัดตำแหน่ง (การสั่นไหวตามเวลาและการกระพริบ)

ในขณะที่วิธีการจับคู่การกระจายแบบดั้งเดิม เช่น การกลั่นด้วยขั้นตอนน้อย (few-step distillation) จะจัดตำแหน่งเฉพาะการกระจายของเอาต์พุตสุดท้ายเท่านั้น โดยละเลยการกระจายในช่วงเวลากลางของกระบวนการสุ่มตัวอย่าง ทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ ที่ร้ายแรงกว่านั้น วิธีการดั้งเดิมประเภทนี้มักต้องการฝึกโมเดลเสริมเพิ่มเติมเพื่อประมาณฟังก์ชันคะแนน (score function) ซึ่งมีต้นทุนการฝึกสูงมาก ดังนั้น การทำให้โมเดลวิดีโอเป็นเชิงเส้นจึงไม่ใช่แค่ปัญหาการเปลี่ยนโครงสร้าง แต่เป็นปัญหาการออกแบบเป้าหมายการปรับให้เหมาะสมด้วย

LINVIDEO: เฟรมเวิร์กการทำให้เป็นเชิงเส้นหลังการฝึกที่ไม่ขึ้นกับข้อมูล

แนวคิดโดยรวมของ LINVIDEO สามารถสรุปได้ว่า: เปลี่ยน “จะเปลี่ยนเลเยอร์ไหน” ให้เป็นปัญหาที่เรียนรู้ได้ และเปลี่ยน “จะฝึกฟื้นฟูอย่างไร” ให้เป็นเป้าหมายการจัดตำแหน่งที่เหมาะสมกว่าสำหรับการสร้างวิดีโอ

ในส่วน “การเลือกเลเยอร์ที่จะเปลี่ยน” LINVIDEO ละทิ้งการเลือกด้วยมือหรือกฎตามประสบการณ์ แต่ถือว่าการเลือกเลเยอร์เป็นปัญหาการตัดสินใจแบบแบ่งประเภทสองกลุ่ม (binary classification) และเสนอกลยุทธ์ การย้ายถ่ายแบบเลือกสรร (Selective Migration) กลยุทธ์นี้ทำให้โมเดลในกระบวนการหลังการฝึก ย้ายถ่ายเลเยอร์ความใส่ใจบางส่วนไปสู่รูปแบบเชิงเส้นโดยอัตโนมัติและเป็นขั้นเป็นตอน เพื่อลดการสูญเสียประสิทธิภาพให้เหลือน้อยที่สุด

เข้าใจง่ายคือ: ไม่ใช่การเปลี่ยนทั้งหมดแบบ “ตัดเสื้อโหล” แต่ให้โมเดลเรียนรู้ตัดสินใจเองว่า “เลเยอร์ไหนเปลี่ยนเป็นเชิงเส้นได้อย่างปลอดภัย เลเยอร์ไหนต้องรักษาไว้” และผ่านการย้ายถ่ายทีละน้อยเพื่อหลีกเลี่ยงการเปลี่ยนแปลงการกระจายอย่างกะทันหันจากการเปลี่ยนในทันที

LINVIDEO ยังเสนอวิธีการจับคู่การกระจาย ณ ช่วงเวลาใดก็ได้ (Arbitrary Timestep Distribution Matching): วิธีนี้ไม่เพียงจัดตำแหน่งช่วงเวลาสุ่มตัวอย่างคงที่ใดช่วงเวลาหนึ่ง แต่จะจัดตำแหน่งการกระจายตัวอย่าง ในขั้นตอนเวลาใดก็ได้ ตามแนววิถีการสุ่มตัวอย่างทั้งหมด จึงสามารถดึงพฤติกรรมของโมเดลหลังการทำให้เป็นเชิงเส้น “กลับมา” สู่โมเดลดั้งเดิมได้อย่างมีประสิทธิภาพมากขึ้น งานวิจัยเน้นว่า เป้าหมายนี้ไม่เพียงสามารถฟื้นฟูประสิทธิภาพได้อย่างมีประสิทธิผลเท่านั้น แต่ยังมีประสิทธิภาพสูงกว่า (ไม่จำเป็นต้องฝึกโมเดลเสริมเหมือนวิธีการจับคู่การกระจายแบบดั้งเดิม) และหลีกเลี่ยงกระบวนการปรับให้เหมาะสมที่ไม่มีประสิทธิผลและไม่มีประสิทธิภาพ

△ แผนภาพเฟรมเวิร์ก LINVIDEO

ผลการทดลอง

ทีมวิจัยได้ทำการประเมินอย่างเป็นระบบบนโมเดล Wan 1.3B และ Wan 14B โดยใช้ 8 มิติของ VBench ในการประเมินแบบองค์รวม และยังใช้ VBench-2.0 (ซึ่งรวมคำสั่งเสริม) เพื่อวัดความสามารถของโมเดลในงานที่ซับซ้อนมากขึ้น เช่น กฎทางฟิสิกส์ ความสอดคล้องของสามัญสำนึก

วิธีการเปรียบเทียบครอบคลุมแผนการความใส่ใจแบบเบาบาง (sparse attention) และแบบไดนามิกที่เป็นกระแสหลัก รวมถึง SVG, SVG2, DFA และวิธีการไดนามิก XAttention การทดสอบความล่าช้าทำบน GPU H100 เพียงตัวเดียว และรับรองว่าวิธีการเปรียบเทียบทั้งหมดใช้การนำความใส่ใจไปปฏิบัติที่เร็วที่สุดของตัวเองเพื่อความยุติธรรม

△ การเปรียบเทียบประสิทธิภาพโดยรวมของ VBench

△ การเปรียบเทียบประสิทธิภาพของ VBench-2.0 (คำสั่งเสริม)

ข้อสรุปหลักของงานวิจัยคือ: ภายใต้มาตรฐานการประเมินเดียวกัน LINVIDEO สามารถรักษาคุณภาพการสร้างไว้ได้มากที่สุด ในขณะเดียวกันก็เพิ่มความเร็วการอนุมานของโมเดลแพร่กระจายวิดีโอไปสู่ระดับที่ใช้งานได้จริงมากขึ้น โดยรวม LINVIDEO บรรลุการเร่งความเร็ว 1.43 ถึง 1.71 เท่า ในขณะที่คุณภาพยังคงมั่นคง; หลังจากรวมกับการกลั่น 4 ขั้นตอนเพิ่มเติม ความล่าช้าแบบ end-to-end ลดลง 15.9 ถึง 20.9 เท่า โดยที่คุณภาพภาพตามการรับรู้ลดลงเพียงเล็กน้อย

นี่หมายความว่า LINVIDEO ไม่เพียงทำขั้นตอน “เปลี่ยนความใส่ใจเป็นเชิงเส้น” เสร็จสิ้นเท่านั้น แต่ยังจัดเตรียมชุดแผนการย้ายถ่ายและการจัดตำแหน่งที่นำไปปฏิบัติได้จริง ทำให้การเปลี่ยนโมเดลแพร่กระจายวิดีโอเป็นเชิงเส้นในสัดส่วนใหญ่กลายเป็นสิ่งที่ทำได้จริง

△ การเปรียบเทียบผลการสร้างวิดีโอของโมเดล 1.3B: (บน) โมเดลดั้งเดิม; (กลาง) LINVIDEO (เร่งความเร็ว 1.43 เท่า); (ล่าง) LINVIDEO ร่วมกับการกลั่น 4 ขั้นตอน (เร่งความเร็ว 15.9 เท่า)

△ การเปรียบเทียบผลการสร้างวิดีโอของโมเดล 14B: (บน) โมเดลดั้งเดิม; (กลาง) LINVIDEO (เร่งความเร็ว 1.71 เท่า); (ล่าง) LINVIDEO ร่วมกับการกลั่น 4 ขั้นตอน (เร่งความเร็ว 20.9 เท่า)

สรุป

LINVIDEO แสดงให้เห็นอย่างชัดเจนว่า: จุดยากหลักของการทำให้โมเดลแพร่กระจายวิดีโอเป็นเชิงเส้น ไม่ได้อยู่ที่ “มีโมดูลความใส่ใจเชิงเส้นอยู่หรือไม่” แต่อยู่ที่ “จะย้ายถ่ายโมเดลไปสู่สถาปัตยกรรมเชิงเส้นและฟื้นฟูคุณภาพการสร้างได้อย่างมีประสิทธิภาพอย่างไร”

เฟรมเวิร์กนี้แก้ปัญหาความไวของ “การเลือกเลเยอร์ที่จะเปลี่ยน” ผ่าน การย้ายถ่ายแบบเลือกสรร และแก้ปัญหาประสิทธิผลและประสิทธิภาพของ “เป้าหมายการจัดตำแหน่งในบริบทวิดีโอ” ผ่าน การจับคู่การกระจาย ณ ช่วงเวลาใดก็ได้ ดังนั้น โดยไม่จำเป็นต้องฝึกล่วงหน้าใหม่ จึงผลักดันให้โมเดลแพร่กระจายวิดีโอก้าวจากความซับซ้อน O(n²) สู่เส้นทางการอนุมาน O(n) ที่ขยายได้มากขึ้น

ที่อยู่บทความ: https://arxiv.org/pdf/2510.08318