Streamo: ทำให้โมเดลวิดีโอขนาดใหญ่เรียนรู้ “เมื่อใดควรพูด” ปฏิสัมพันธ์สตรีมมิ่งเรียลไทม์ไม่สะดุดอีกต่อไป

4 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 13 views

ในขณะที่โมเดลวิดีโอขนาดใหญ่ทำคะแนนสูงขึ้นเรื่อยๆ บนเกณฑ์มาตรฐานออฟไลน์อย่าง MVBench และ VideoMME การประยุกต์ใช้ในสถานการณ์การโต้ตอบจริงกลับเผชิญกับความท้าทายหลักสองประการ: จะจัดการกับสตรีมวิดีโอต่อเนื่องที่ไม่มีขอบเขตอย่างไร และจะทำให้โมเดลตัดสินใจได้อย่างไรว่าจะตอบเมื่อไหร่ในสตรีมวิดีโอแบบไดนามิก

ล่าสุด มหาวิทยาลัยฮ่องกงแบ๊บติสต์และห้องปฏิบัติการ Tencent YouTu ได้ร่วมกันเสนอ Streamo นวัตกรรมหลักอยู่ที่: การเปลี่ยน “เมื่อไหร่ควรตอบ” ให้กลายเป็นโทเค็นที่โมเดลต้องทำนาย โดยใช้กรอบการฝึกแบบ end-to-end เพื่อแปลงโมเดลวิดีโอออฟไลน์โดยตรงให้เป็นผู้ช่วยอัจฉริยะที่สามารถประมวลผลสตรีมวิดีโอเรียลไทม์ได้ Streamo สามารถจัดการกับสตรีมวิดีโอต่อเนื่องในสถานการณ์จริง รองรับการโต้ตอบหลายรอบแบบเรียลไทม์ ดำเนินการต่างๆ เช่น การบรรยายสด การทำความเข้าใจการกระทำ การระบุตำแหน่งเหตุการณ์ การถามตอบแบบไดนามิก ส่งเสริมผู้ช่วยสตรีมวิดีโอไปสู่การใช้งานจริงอย่างแท้จริง

Streamo: ทำให้โมเดลวิดีโอขนาดใหญ่เรียนรู้ "เมื่อใดควรพูด" ปฏิสัมพันธ์สตรีมมิ่งเรียลไทม์ไม่สะดุดอีกต่อไป

ชื่อบทความวิจัย: Streaming Video Instruction Tuning
หน้าแรกบทความ: https://jiaerxia.github.io/Streamo/
ลิงก์บทความ: https://github.com/maifoundations/Streamo

1. การวิเคราะห์ปัญหา

ทำไมโมเดลวิดีโอขนาดใหญ่ในปัจจุบันถึงยากที่จะกลายเป็นผู้ช่วยโต้ตอบแบบเรียลไทม์? แม้ว่าโมเดลที่เป็นตัวแทนอย่าง Qwen2-VL, LLaVA-Video จะแสดงผลยอดเยี่ยมในงานต่างๆ เช่น การทำความเข้าใจวิดีโอ การถามตอบ แต่คอขวดสำคัญประการหนึ่งคือ: โมเดลเหล่านี้ถูกออกแบบมาสำหรับสถานการณ์ออฟไลน์ที่ใช้คลิปวิดีโอสมบูรณ์ ในขณะที่ความต้องการโต้ตอบในโลกจริงมักเป็นสถานการณ์สตรีมแบบเรียลไทม์ที่ “ดูไปพูดไป”

รูปแบบออฟไลน์สมมติว่าโมเดลสามารถเข้าถึงวิดีโอสมบูรณ์ก่อนการอนุมาน เพื่อทำการวิเคราะห์ภาพรวมแล้วจึงส่งออกคำตอบ อย่างไรก็ตาม สถานการณ์สตรีมได้ทำลายข้อสมมตินี้: สตรีมวิดีโอโดยพื้นฐานแล้วไม่มีขอบเขต โมเดลไม่สามารถรู้ล่วงหน้าเกี่ยวกับอนาคตได้ แต่สามารถตัดสินใจทันทีได้จากข้อมูลปัจจุบันและอดีตเท่านั้น ในขณะเดียวกัน ความต้องการแบบเรียลไทม์บังคับให้โมเดลต้องตอบสนองทันทีเมื่อเหตุการณ์สำคัญเกิดขึ้น แทนที่จะรอให้วิดีโอจบลง นอกจากนี้ คำสั่งผู้ใช้อาจเข้ามาได้ตลอดเวลา โมเดลจำเป็นต้องฟังอย่างต่อเนื่องและเลือกเวลาที่เหมาะสมเพื่อกระตุ้นการตอบสนอง งานต่างๆ ยังต้องการระดับความละเอียดของการตอบสนองที่แตกต่างกัน บางงานต้องการการบรรยายทันทีในระดับเฟรม ในขณะที่บางงานเหมาะกับการสรุปหลังจากเหตุการณ์สิ้นสุดลง

วิธีการที่มีอยู่มักใช้โมดูลตัดสินใจแยกเพื่อปรับให้เข้ากับสถานการณ์สตรีม: เริ่มจากโมดูลหนึ่งตัดสินใจ “ควรตอบสนองหรือไม่” จากนั้นจึงเรียกใช้โมเดลออฟไลน์เพื่อสร้างเนื้อหา แผนการนี้มีข้อบกพร่องที่ชัดเจน: โมดูลตัดสินใจแบบเบาทำให้เข้าใจคำสั่งที่ซับซ้อนและบริบทข้ามเวลาได้ยาก ในขณะที่โมดูลตัดสินใจที่ซับซ้อนจะเพิ่มความล่าช้าในการอนุมาน ทำลายความเป็นเรียลไทม์ ที่สำคัญยิ่งไปกว่านั้น การแยกการตัดสินใจและการสร้าง ทำให้โมเดลยากที่จะสร้างการตอบสนองที่ต่อเนื่องและทันเวลาในอินพุตที่เปลี่ยนแปลงอย่างต่อเนื่อง

ความเข้าใจหลักของ Streamo คือ: การตัดสินใจและการสร้างไม่ควรถูกแยกออกจากกัน แต่ควรรวมเข้าด้วยกันในกรอบ end-to-end เดียวกัน เพื่อให้โมเดลเรียนรู้โดยตรงว่า “ควรพูดเมื่อไหร่ และควรพูดอะไร”

2. Streamo: สถาปัตยกรรมแบบรวมการตัดสินใจ-การตอบสนองแบบ end-to-end

การออกแบบที่สำคัญของ Streamo คือการเปลี่ยน “เมื่อไหร่ควรตอบ” ให้กลายเป็นโทเค็นที่โมเดลต้องทำนาย โดยเฉพาะอย่างยิ่ง มันจัดระเบียบสตรีมวิดีโอในรูปแบบบทสนทนาหลายรอบ: ทุก 1 วินาทีสอดคล้องกับหนึ่งรอบของบทสนทนา โดยส่วนวิดีโอจะถูกป้อนตามลำดับเวลา ในแต่ละรอบ โมเดลจำเป็นต้องทำนายโทเค็นสถานะการตอบสนอง ซึ่งรวมถึง:
* <Silence>: หมายถึงภาพในปัจจุบันไม่เกี่ยวข้องกับงานหรือข้อมูลยังไม่สำคัญพอ โมเดลจะประมวลผลอินพุตต่อไป
* <Standby>: หมายถึงโมเดลได้จับเบาะแสที่เกี่ยวข้องแล้ว แต่ยังต้องรอบริบทเพิ่มเติมเพื่อสร้างการตัดสินใจที่สมบูรณ์
* <Response>: หมายถึงข้อมูลเพียงพอแล้ว โมเดลควรสร้างเอาต์พุตข้อความทันที

ด้วยวิธีนี้ Streamo ได้รวม “ควรตอบสนองหรือไม่” และ “สร้างเนื้อหาอะไร” เข้าด้วยกันในกระบวนการทำนายโทเค็นถัดไปเดียวกัน เมื่อโมเดลทำนายโทเค็นถัดไป มันไม่เพียงสร้างข้อความ แต่ยังทำการตัดสินใจเกี่ยวกับเวลาการตอบสนองไปพร้อมกัน สิ่งนี้ทำให้การตัดสินใจและการสร้างใช้พื้นที่ความหมายเดียวกัน โมเดลสามารถสร้างแบบจำลองร่วมกันสำหรับเบาะแสเชิงเวลา เป้าหมายงาน และเอาต์พุตภาษาได้อย่างเป็นธรรมชาติมากขึ้น ดังนั้นจึงเรียนรู้ได้ดีขึ้นว่าจะ “ตอบสนองทันทีเมื่อไหร่ รอเมื่อไหร่” ในวิดีโอต่อเนื่อง

การออกแบบนี้ไม่จำเป็นต้องแนะนำหัวตัดสินใจอิสระหรือตัวควบคุมภายนอก แต่เป็นการผสานโทเค็นสถานะทั้งสามเข้ากับกรอบการฝึกแบบ autoregressive มาตรฐานโดยตรง สิ่งนี้ไม่เพียงรักษาความเข้ากันได้กับรูปแบบการปรับแต่งภายใต้การดูแลที่มีอยู่ แต่ยังทำให้ขั้นตอนการฝึกและการอนุมานมีประสิทธิภาพและเรียบง่ายมากขึ้น อำนวยความสะดวกในการนำโครงสร้างพื้นฐานที่มีอยู่กลับมาใช้ใหม่โดยตรง

3. ชุดข้อมูล Streamo-Instruct-465K

ความท้าทายหลักในการฝึกผู้ช่วยสตรีมคือ: งานต่างๆ สอดคล้องกับจังหวะการตอบสนองที่แตกต่างกัน ดังนั้น ข้อมูลการฝึกไม่เพียงต้องให้การดูแลเนื้อหา แต่ยังต้องให้ขอบเขตเวลาที่ชัดเจนและสม่ำเสมอ เพื่อแนะนำโมเดลว่าเมื่อไหร่ควรเงียบ รอ หรือตอบ

เพื่อจุดประสงค์นี้ นักวิจัยได้สร้างชุดข้อมูล Streamo-Instruct-465K ชุดข้อมูลนี้ประกอบด้วยตัวอย่างคำสั่งประมาณ 465,000 รายการ มาจากวิดีโอ 135,875 คลิป รวมแหล่งข้อมูลสาธารณะหลายแห่ง เช่น ActivityNet, YouCook2, QVHighlight และได้รับการติดป้ายกำกับใหม่แบบรวมศูนย์ การติดป้ายกำกับใช้กระบวนการอัตโนมัติหลายขั้นตอน รวมการสร้างคำอธิบายผู้สมัครโดยโมเดลขนาดใหญ่ เช่น Qwen2.5-VL-72B, GLM-4.5 จากนั้นผ่านการกรองความสม่ำเสมอและการประมวลผลหลัง เพื่อรับประกันความแม่นยำของขอบเขตเวลาและความต่อเนื่องของข้อความ

ชุดข้อมูลนี้มีลักษณะหลายงานและหลายระดับความละเอียด วิดีโอเดียวกันสามารถถูกติดป้ายกำกับเป็นงานสตรีมหลายประเภท รวมถึง:
* คำบรรยายสด
* คำบรรยายเหตุการณ์
* คำบรรยายการกระทำ
* การระบุตำแหน่งเหตุการณ์ตามเวลา
* การถามตอบที่เปลี่ยนแปลงตามเวลา

งานเหล่านี้ครอบคลุมสถานการณ์ต่างๆ ตั้งแต่การบรรยายต่อเนื่องไปจนถึงการสรุปเหตุการณ์ ตั้งแต่การอธิบายการกระทำไปจนถึงการระบุตำแหน่งออนไลน์และการถามตอบแบบไดนามิก งานทั้งหมดถูกรวมเข้าด้วยกันภายใต้กรอบการดูแลเวลาเดียวกัน: ในแต่ละรอบของการติดป้ายกำกับไม่เพียงรวมเอาต์พุตข้อความ แต่ยังระบุชัดเจนว่าโมเดลควรอยู่ในสถานะเงียบ รอ หรือตอบในขณะนั้น สิ่งนี้ทำให้โมเดลสามารถเรียนรู้ “พูดอะไร” และ “พูดเมื่อไหร่” พร้อมกัน ดังนั้นจึงสามารถปรับให้เข้ากับความต้องการการตอบสนองของงานสตรีมต่างๆ ได้

การสาธิตการติดป้ายกำกับข้อมูลหลายงาน:

(สำหรับวิดีโอเดียวกัน การติดป้ายกำกับจะเปลี่ยนแปลงตามเป้าหมายงาน: ในการบรรยายสดจำเป็นต้องส่งออกอย่างต่อเนื่อง ในการบรรยายเหตุการณ์จะสรุปหลังจากเหตุการณ์สิ้นสุดลง ในการถามตอบที่เปลี่ยนแปลงตามเวลา คำตอบจะอัปเดตตามความคืบหน้าของวิดีโอ แต่ละจุดเวลาจะถูกติดป้ายกำกับด้วยสถานะการตอบสนองที่โมเดลควรมี)

4. ผลการทดลอง

ในการประเมิน OVO-Bench, Streamo-7B (2fps) มีประสิทธิภาพโดยเฉลี่ย 57.86% ซึ่งเหนือกว่าโมเดลฐาน Dispider ถึง 13.83 เปอร์เซ็นต์ ในสามมิติความสามารถนำหน้าอย่างครอบคลุม:
* ความสามารถในการรับรู้แบบเรียลไทม์: 67.44% (เพิ่มขึ้นสัมพัทธ์ +12.89%)
* ความสามารถในการติดตามย้อนหลัง: 49.18% (เพิ่มขึ้นสัมพัทธ์ +13.12%)
* ความสามารถในการตอบสนองเชิงรุกไปข้างหน้า: 56.96% (เพิ่มขึ้นสัมพัทธ์ +22.24%)

นอกจากนี้ โมเดล Streamo ที่ฝึกที่ 1fps สามารถประเมินที่ 2fps โดยตรงได้ โดยมีประสิทธิภาพเพิ่มขึ้น 4.66% แสดงให้เห็นถึงความสามารถในการปรับตัวที่แข็งแกร่ง

Streamo: ทำให้โมเดลวิดีโอขนาดใหญ่เรียนรู้ "เมื่อใดควรพูด" ปฏิสัมพันธ์สตรีมมิ่งเรียลไทม์ไม่สะดุดอีกต่อไป
การเปรียบเทียบ Streamo-Instruct กับข้อมูลที่มีอยู่

การเพิ่มประสิทธิภาพของ Streamo ไม่ได้มาจากเพียงกรอบการฝึก แต่ยังขึ้นอยู่กับข้อมูลการฝึกคุณภาพสูงอย่างมาก เมื่อเปรียบเทียบกับ ET-Instruct-164K ที่ใช้กันอย่างแพร่หลาย Streamo-Instruct มีประสิทธิภาพโดยรวมเพิ่มขึ้น 11.79% บน OVO-Bench และเพิ่มขึ้น 7.1% ในงานตอบสนองเชิงรุกไปข้างหน้าที่สำคัญ และหลีกเลี่ยงปัญหาที่อาจเกิดขึ้นจาก “ความเสื่อมถอยของความสามารถออนไลน์” เนื่องจากข้อมูลออฟไลน์แบบผสม (เช่น LLaVA-Video)

การทดลองเปิดเผยปรากฏการณ์สำคัญ: การผสมข้อมูลออฟไลน์โดยตรงอาจลดความสามารถออนไลน์ของโมเดล ตัวอย่างเช่น เมื่อ ET-Instruct รวมกับ LLaVA-Video ความสามารถในการรับรู้แบบเรียลไทม์เพิ่มขึ้นเล็กน้อย แต่ประสิทธิภาพการตอบสนองเชิงรุกไปข้างหน้ากลับลดลง นี่บ่งชี้ว่ามีความขัดแย้งระหว่างรูปแบบการดูแลออฟไลน์และเป้าหมายการเรียนรู้สตรีม ในทางตรงกันข้าม Streamo-Instruct ผ่านการติดป้ายกำกับสตรีมที่ออกแบบมาโดยเฉพาะและการดูแลเวลาแบบรวมศูนย์ ได้หลีกเลี่ยงปัญหานี้ได้อย่างมีประสิทธิภาพ

5. บทสรุป

การทำให้ผู้ช่วยหลายรูปแบบแบบเรียลไทม์ที่แท้จริงเป็นจริง (เช่น การทำความเข้าใจสตรีมมิ่ง การแจ้งเตือนการขับขี่อัจฉริยะ การตรวจตราความปลอดภัย การสอนกีฬา ฯลฯ) ความท้าทายหลักมักไม่ใช่ “ตอบถูก” แต่คือ “สร้างเอาต์พุตที่เหมาะสม ณ จุดเวลาที่เหมาะสม” Streamo ไม่เพียงแก้ไขคอขวดสำคัญของโมเดลวิดีโอขนาดใหญ่ในการโต้ตอบแบบเรียลไทม์ แต่ยังให้เส้นทางทางเทคนิคที่นำกลับมาใช้ใหม่ได้ ซึ่งสามารถแปลงโมเดลการรับรู้แบบสถิตให้เป็นตัวแทนอัจฉริยะแบบโต้ตอบไดนามิก ในเวลาเดียวกัน โครงการนี้ได้สร้างและจัดเตรียมชุดข้อมูลคำสั่งวิดีโอสตรีมขนาดใหญ่ที่มีการติดป้ายกำกับเวลาแบบรวมศูนย์ เพื่อส่งเสริมการพัฒนาด้านการทำความเข้าใจวิดีโอสตรีม

6. การสาธิต

การสาธิตนี้แสดงให้เห็นถึงความสามารถในการทำความเข้าใจและตอบสนองแบบเรียลไทม์ของโมเดลวิดีโอสตรีมภายใต้อินพุตวิดีโอต่อเนื่อง โมเดลสามารถตัดสินใจได้ตามความคืบหน้าของภาพว่าเมื่อไหร่ควรเงียบ เมื่อไหร่ควรรอ เมื่อไหร่ควรตอบ ในขณะที่รับประกันความทันเวลาของการตอบสนอง ก็ยังเพิ่มความแม่นยำและความต่อเนื่องของเอาต์พุต โดยเฉพาะอย่างยิ่ง:
* สำหรับคำถามที่ยังไม่มีคำตอบที่ชัดเจน โมเดลจะเลือกรอข้อมูลเพิ่มเติมก่อนจึงจะตอบ
* สำหรับคำถามที่คำตอบอาจเปลี่ยนแปลงตามเวลา โมเดลสามารถอัปเดตเอาต์พุตได้อย่างต่อเนื่อง
* โมเดลยังรองรับการถามตอบแบบย้อนหลังโดยอิงจากเนื้อหาวิดีโอในอดีต

แนะนำผู้เขียน

ผู้เขียนหลักของบทความนี้คือ Xia Jiaer นักศึกษาปริญญาเอกภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยฮ่องกงแบ๊บติสต์ งานวิจัยหลักของเขาคือโมเดลขนาดใหญ่หลายรูปแบบ ครอบคลุมการให้เหตุผลหลายรูปแบบ การทำความเข้าใจและโต้ตอบวิดีโอสตรีม เขาได้ตีพิมพ์บทความหลายฉบับในฐานะผู้เขียนหลักในงานประชุมระดับสูง เช่น CVPR, ICCV, AAAI อาจารย์ที่ปรึกษาคือผู้ช่วยศาสตราจารย์ Zhou Kaiyang จากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยฮ่องกงแบ๊บติสต์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/26448