OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นสำหรับเสียงและวิดีโอ เพียง 35% ของโทเค็นก็เพิ่มประสิทธิภาพได้ ลดเวลาในการอนุมานลง 42%

2026年3月11日 am10:54 • วิศวกรรมโมเดลขนาดใหญ่ • 197 views

OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นเสียงและวิดีโอ เพิ่มประสิทธิภาพด้วยโทเค็นเพียง 35% ลดเวลาในการอนุมานลง 42%

ในขณะที่โมเดลขนาดใหญ่หลายโหมดกำลังพัฒนาไปสู่ “โหมดครบถ้วน” โมเดลอย่าง Gemini-2.5-Pro และ Qwen2.5-Omni สามารถเข้าใจข้อมูลวิดีโอและเสียงได้พร้อมกัน อย่างไรก็ตาม ความสามารถในการรับรู้แบบบูรณาการนี้มีต้นทุนการคำนวณสูง วิดีโอและเสียงที่ยาวเพียงไม่กี่วินาทีมักถูกเข้ารหัสเป็นโทเค็นหลายพันตัว ซึ่งส่วนใหญ่เป็นข้อมูลที่ซ้ำซ้อน การทดลองแสดงภาพความสนใจ (Attention Visualization) เผยให้เห็นว่าในกระบวนการอนุมานหลายโหมด มีโทเค็นเพียงไม่กี่ตัวเท่านั้นที่ได้รับน้ำหนักความสนใจสูง แหล่งทรัพยากรการคำนวณส่วนใหญ่ถูกใช้ไปกับข้อมูลที่ซ้ำซ้อน

เพื่อแก้ไขปัญหาคอขวดด้านการคำนวณในสถานการณ์โหมดครบถ้วนของเสียงและวิดีโอ ทีมวิจัยจาก Kuaishou Kling สถาบันอัตโนมัติของ Chinese Academy of Sciences และมหาวิทยาลัยหนานจิง ได้เสนอ OmniSIFT — กรอบการบีบอัดโทเค็นแบบไม่สมมาตรระหว่างโหมด ข้อมูลเชิงลึกหลักคือ: ข้อมูลวิดีโอมีความหนาแน่นมากกว่าเสียงมาก ดังนั้นจึงสามารถให้วิดีโอ “นำ” เสียงไปด้วยได้ วิธีการนี้บีบอัดโทเค็นวิดีโอผ่านการตัดแต่งร่วมกันระหว่างพื้นที่และเวลา (Spatio-Temporal Joint Pruning) จากนั้นใช้คุณลักษณะภาพที่ผ่านการคัดเลือกแล้วเพื่อชี้นำการเลือกโทเค็นเสียง ซึ่งช่วยกำจัดภาพซ้ำหรือเสียงที่ไม่เกี่ยวข้องจำนวนมาก ในขณะที่ยังคงรักษาความหมายหลักไว้

ผลการทดลองแสดงให้เห็นว่า การคงไว้เพียง 35% ของโทเค็นหลายโหมด ประสิทธิภาพของโมเดลไม่เพียงแต่ไม่ลดลง แต่ในบางเกณฑ์มาตรฐานยังสูงกว่าการป้อนข้อมูลเต็มจำนวนอีกด้วย ในเวลาเดียวกัน เวลาในการอนุมานลดลง 42% และการใช้หน่วยความจำ GPU ก็ลดลงตามไปด้วย

OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นสำหรับเสียงและวิดีโอ เพียง 35% ของโทเค็นก็เพิ่มประสิทธิภาพได้ ลดเวลาในการอนุมานลง 42%

ความท้าทายด้านการคำนวณของโหมดครบถ้วน และข้อจำกัดของโซลูชันที่มีอยู่

แม้ว่าจะมีวิธีการบีบอัดโทเค็นภาพอยู่บ้าง แต่ในสถานการณ์โหมดครบถ้วน “เสียง+วิดีโอ” ยังคงเผชิญความท้าทาย วิดีโอมีข้อมูลซ้ำซ้อนด้านพื้นที่และเวลาจำนวนมาก ในขณะที่เสียงมีความไวสูงต่อความต่อเนื่องของเวลา ที่ซับซ้อนยิ่งขึ้นคือ ทั้งสองโหมดมีความเชื่อมโยงเชิงความหมายที่แน่นแฟ้น กลยุทธ์การบีบอัดแบบเดียวกันอย่างง่ายอาจทำลายเบาะแสสำคัญได้ง่าย

OmniSIFT เริ่มจาก โครงสร้างความซ้ำซ้อนของโหมดเอง เสนอกลยุทธ์การบีบอัดแบบไม่สมมาตร โดยมีเป้าหมายเพื่อแก้ไขปัญหาที่ข้อมูลเสียงและวิดีโอมีความไม่สมดุลอย่างมากและมีระดับความซ้ำซ้อนสูง

OmniSIFT: กรอบการบีบอัดโทเค็นแบบไม่สมมาตรระหว่างโหมด

แนวคิดหลักของ OmniSIFT คือการใช้ ความสัมพันธ์การพึ่งพาแบบไม่สมมาตร ระหว่างเสียงและวิดีโอ: ใช้ข้อมูลวิดีโอเพื่อหาเบาะแสภาพสำคัญก่อน จากนั้นจึงคัดเลือกโทเค็นเสียงที่เกี่ยวข้องที่สุดตามนั้น กรอบนี้ทำงานร่วมกันโดย โมดูลตัดแต่งวิดีโอแบบพื้นที่และเวลา (Spatio-Temporal Video Pruning – STVP) และ โมดูลเลือกเสียงโดยชี้นำด้วยภาพ (Vision-Guided Audio Selection – VGAS) ซึ่งช่วยบีบอัดความยาวของลำดับข้อมูลได้อย่างมาก ในขณะที่ยังคงรักษาข้อมูลความหมายสำคัญไว้

ดังแสดงในรูปที่ 2 ในกรณีศึกษา “เกิดอะไรขึ้นเมื่อคะแนนเปลี่ยนจาก 27–26 เป็น 28–26?” OmniSIFT สามารถรักษาเบาะแสภาพสำคัญของการเปลี่ยนแปลงกระดานคะแนนและเสียงที่เกี่ยวข้องไว้ได้ ทำให้สามารถอนุมานสาเหตุได้อย่างถูกต้อง ในขณะที่วิธีการบีบอัดแบบดั้งเดิมมักสูญเสียข้อมูลประเภทนี้ ส่งผลให้โมเดลเข้าใจผิด

1. STVP: การตัดแต่งร่วมกันระหว่างพื้นที่และเวลาเพื่อบีบอัดวิดีโอ

โทเค็นวิดีโอคิดเป็นสัดส่วนส่วนใหญ่ของการป้อนข้อมูลหลายโหมด โมดูล STVP ระบุความซ้ำซ้อนจากสองมิติ: พื้นที่และเวลา:

การตัดแต่งภายในเฟรม (Intra-frame Pruning): ระบุพื้นที่พื้นหลังหรือพื้นผิวที่ซ้ำซ้อนภายในเฟรมเดียว รักษาเฉพาะคุณลักษณะภาพที่มีคุณค่าทางความหมาย
การตัดแต่งระหว่างเฟรม (Inter-frame Pruning): วิเคราะห์ความคล้ายคลึงกันของภาพระหว่างเฟรมต่อเนื่องกัน เมื่อการเปลี่ยนแปลงระหว่างเฟรมที่อยู่ติดกันมีน้อย จะทิ้งเฟรมที่ซ้ำซ้อนโดยอัตโนมัติเพื่อลดความซ้ำซ้อนด้านเวลา

ด้วยการตัดแต่งภายในเฟรมและระหว่างเฟรมสลับกัน STVP สามารถบีบอัดจำนวนโทเค็นวิดีโอได้อย่างมาก ในขณะที่ยังรับประกันความสมบูรณ์ของความหมายทางภาพ

2. VGAS: การเลือกเสียงโดยชี้นำด้วยภาพ

เสียงมีความไวต่อความต่อเนื่องของเวลา การทิ้งโทเค็นอย่างง่ายอาจทำลายความหมายได้ง่าย โมดูล VGAS ใช้คุณลักษณะภาพที่ผ่านการคัดเลือกแล้ว ผ่านกลไกความสนใจข้ามโหมด (Cross-modal Attention) เพื่อประเมินความสำคัญของโทเค็นเสียงแต่ละตัว

ส่วนของเสียงที่เกี่ยวข้องสูงกับเนื้อหาภาพในปัจจุบัน (เช่น เสียงพูด เสียงกระทบ) จะถูกเก็บรักษาไว้เป็นลำดับแรก ในขณะที่เสียงพื้นหลังที่ไม่เกี่ยวข้องจะถูกกรองออก เพื่อให้กระบวนการเลือกโทเค็นแบบไม่ต่อเนื่องสามารถเข้าร่วมการฝึกได้ นักวิจัยได้นำ Straight-Through Estimator (STE) มาใช้ ทำให้สามารถปรับให้เหมาะสมแบบดิฟเฟอเรนเชียลได้ตั้งแต่ต้นจนจบ (End-to-End)

ผลการทดลอง: ประสิทธิภาพและประสิทธิผลภายใต้การบีบอัดขั้นสูง

ทีมวิจัยได้ทำการประเมินอย่างเป็นระบบบน Qwen2.5-Omni-7B และ Qwen2.5-Omni-3B ครอบคลุมเกณฑ์มาตรฐานการทำความเข้าใจเสียงและวิดีโอหลายชุด เช่น OmniVideoBench, DailyOmni, WorldSense

ประสิทธิภาพ: ผลลัพธ์ “ไม่สูญเสีย” ภายใต้อัตราการคงโทเค็น 35%

การทดลองเผยให้เห็นปรากฏการณ์ที่น่าสนใจ: ในการอนุมานหลายโหมด โทเค็นมากกว่า 65% ที่แท้จริงแล้วเป็นข้อมูลซ้ำซ้อน ดังแสดงในตาราง ภายใต้การคงโทเค็นไว้เพียง 35% OmniSIFT รักษาและในบางงานยังเกินกว่าผลการแสดงของโมเดลที่ป้อนข้อมูลเต็มจำนวน ตัวอย่างเช่น บนเกณฑ์มาตรฐาน WorldSense OmniSIFT บน Qwen2.5-Omni-7B ได้คะแนน 50.0 ซึ่งสูงกว่าโมเดลฐานที่ป้อนข้อมูลเต็มจำนวนซึ่งได้ 49.7

ภายใต้อัตราการคงโทเค็นที่เข้มงวดยิ่งขึ้นที่ 25% ประสิทธิภาพของ OmniSIFT ยังคงมีเสถียรภาพ โดยรวมดีกว่าวิธีการเปรียบเทียบอื่นๆ เช่น OmniZip, DyCoke

การทดลองแยกส่วน: ยืนยันความจำเป็นของ “การชี้นำด้วยภาพ”

การทดลองแยกส่วนวิเคราะห์บทบาทของแต่ละโมดูล:
* การลบโมดูลตัดแต่งพื้นที่หรือเวลาของ STVP ออก ทำให้ประสิทธิภาพของโมเดลดลงอย่างเห็นได้ชัด แสดงให้เห็นว่าจำเป็นต้องสร้างแบบจำลองความซ้ำซ้อนด้านพื้นที่และเวลาไปพร้อมกัน
* เมื่อแทนที่ การเลือกเสียงโดยชี้นำด้วยภาพ (VGAS) ด้วย การตัดแต่งความสนใจของเสียงเอง คะแนนบน DailyOmni ลดลงจาก 73.2 เป็น 69.3 สิ่งนี้พิสูจน์ว่าในการทำความเข้าใจโหมดครบถ้วน เบาะแสภาพสามารถช่วยระบุข้อมูลเสียงสำคัญได้อย่างมีนัยสำคัญ

การเพิ่มประสิทธิภาพ: ลดเวลาในการอนุมานลง 42%

เนื่องจากจำนวนโทเค็นลดลงอย่างมาก ต้นทุนการคำนวณของโมเดลจึงลดลงอย่างมีนัยสำคัญ ภายใต้ อัตราการคงโทเค็น 35% OmniSIFT บน Qwen2.5-Omni-7B ลด เวลาการอนุมานทั้งหมดจาก 15097 วินาทีเหลือ 8756 วินาที ลดลงประมาณ 42% การใช้หน่วยความจำ GPU ลดลงตามไปด้วย ในขณะที่ความแม่นยำของโมเดลยังคงมีเสถียรภาพหรือแม้แต่เพิ่มขึ้นเล็กน้อย

สรุป

OmniSIFT ผ่านกลยุทธ์การบีบอัดโทเค็นแบบไม่สมมาตรระหว่างโหมด รักษาประสิทธิภาพของโมเดลไว้ได้ภายใต้อัตราการบีบอัดที่สูงมาก และลดต้นทุนการอนุมานลงอย่างมีนัยสำคัญ สิ่งนี้เปิดความเป็นไปได้ใหม่สำหรับการประยุกต์ใช้โมเดลขนาดใหญ่โหมดครบถ้วนในสถานการณ์ต่างๆ เช่น การโต้ตอบแบบเรียลไทม์และการปรับใช้บนอุปกรณ์ปลายทาง

OmniSIFT ผ่านกลยุทธ์การบีบอัดโทเค็นแบบไม่สมมาตรระหว่างโหมด ยังคงรักษาความสามารถในการทำความเข้าใจหลายโหมดที่แข็งแกร่งไว้ได้ แม้จะคงโทเค็นสำคัญไว้เพียงเล็กน้อย ซึ่งให้แนวคิดใหม่สำหรับการอนุมานที่มีประสิทธิภาพของโมเดลโหมดครบถ้วน งานนี้เผยให้เห็นข้อมูลเชิงลึกที่ลึกซึ้ง: สิ่งที่กำหนดความสามารถในการทำความเข้าใจของโมเดลไม่ใช่จำนวนโทเค็น แต่คือความหนาแน่นของข้อมูล

ข้อมูลงานวิจัย
– ชื่อเรื่อง: OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
– ผู้เขียนและสถาบัน: สถาบันอัตโนมัติของ Chinese Academy of Sciences, Kuaishou Kling, มหาวิทยาลัยหนานจิง เป็นต้น
– ลิงก์งานวิจัย: https://arxiv.org/abs/2602.04804