ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

หลี่ชุนหยู นักศึกษาปริญญาเอกจากมหาวิทยาลัยฟู่ต้าน เป็นผู้เขียนหลักของบทความนี้ โดยมีสาขาการวิจัยหลักคือโมเดลการแพร่กระจายสำหรับการสร้างวิดีโอ ผู้เขียนร่วมคนแรกคือหลี่เจียเย่ นักศึกษาปริญญาโทจากมหาวิทยาลัยฟู่ต้าน ผู้เขียนที่ติดต่อได้คือศาสตราจารย์จูซือหยู่ จากมหาวิทยาลัยฟู่ต้าน ซึ่งเป็นอาจารย์ประจำเต็มเวลาของสถาบันเซี่ยงไฮ้ครีเอทีฟ

อวตารดิจิทัลที่ขับเคลื่อนด้วยข้อความกำลังก้าวจาก “การสร้างได้” ไปสู่ “การโต้ตอบแบบเรียลไทม์” อย่างไรก็ตาม เส้นทางนี้เต็มไปด้วยความท้าทาย ในด้านหนึ่ง การสร้างวิดีโอและเสียงร่วมกันนั้นเป็นงานที่มีมิติสูงและใช้การคำนวณมาก ในอีกด้านหนึ่ง หากเร่งความเร็วอย่างรุนแรงเพื่อ追求ความเร็ว การซิงค์ปาก ความเป็นธรรมชาติของเสียง และรายละเอียดของตัวละครมักจะเสื่อมลงพร้อมกัน

เมื่อเร็วๆ นี้ นักวิจัยจากสถาบันเซี่ยงไฮ้ครีเอทีฟ มหาวิทยาลัยฟู่ต้าน และหน่วยงานอื่นๆ ได้เสนอ Hallo-Live เพื่อแก้ไขปัญหานี้โดยตรง บทความนี้เผยแพร่บน arXiv เมื่อวันที่ 26 เมษายน 2026 วิธีการนี้ผสานการแพร่กระจายแบบสองสตรีมแบบอะซิงโครนัสเข้ากับการกลั่นที่นำโดยความชอบของมนุษย์ บน GPU NVIDIA H200 สองตัว สามารถทำปริมาณงานได้ 20.38 FPS และความหน่วงแบบ end-to-end 0.94 วินาที เมื่อเทียบกับโมเดลครู Ovi ปริมาณงานเพิ่มขึ้น 16.0 เท่า ความหน่วงลดลง 99.3% ในขณะที่ยังคงรักษาคุณภาพของภาพและการซิงค์เสียง-ภาพที่ใกล้เคียงกับโมเดลครู

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

  • ชื่อบทความ: Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
  • ลิงก์บทความ: https://arxiv.org/abs/2604.23632
  • ที่อยู่โค้ด: https://github.com/fudan-generative-vision/Hallo-Live

การสาธิตนี้แสดงให้เห็นถึงความสามารถของ Hallo-Live ในการสร้างวิดีโอและเสียงแบบเรียลไทม์ที่ขับเคลื่อนด้วยข้อความในสไตล์อนิเมะ ตัวละครที่สมจริง และสถานการณ์ที่มีผู้พูดหลายคน

ทำไมการสร้างวิดีโอและเสียงแบบเรียลไทม์จึงยากนัก?

ต่างจากอวตารดิจิทัลที่ขับเคลื่อนด้วยเสียง การสร้างวิดีโอและเสียงที่ขับเคลื่อนด้วยข้อความจำเป็นต้องทำงานสองอย่างพร้อมกัน: ขั้นแรก “เข้าใจ” ตัวละคร ฉาก น้ำเสียง และสภาพแวดล้อมทางเสียงในข้อความ จากนั้นจึงสร้างวิดีโอพูดและเสียงที่สอดคล้องกันพร้อมกัน ซึ่งหมายความว่าโมเดลไม่เพียงแต่ต้องรับประกันคุณภาพของภาพและความเป็นธรรมชาติของเสียงเท่านั้น แต่ยังต้องจัดตำแหน่งการซิงค์ปาก การออกเสียง การแสดงออก และแม้แต่การเคลื่อนไหวของร่างกายส่วนบนให้ตรงกับไทม์ไลน์เดียวกันอย่างแม่นยำ

ในงานที่มีอยู่ โมเดลการแพร่กระจายแบบสองสตรีม เช่น Ovi ได้พิสูจน์แล้วว่าการสร้างแบบจำลองสตรีมเสียงและสตรีมวิดีโอแยกกัน จากนั้นจึงทำการผสานข้ามโมดอลเป็นเส้นทางที่มีประสิทธิภาพ แต่ปัญหาคือ โมเดลประเภทนี้มักจะเน้นไปที่การสร้างคุณภาพสูงแบบออฟไลน์ และยังห่างไกลจากการโต้ตอบแบบเรียลไทม์ ผู้เขียนชี้ให้เห็นว่าเมื่อปรับเปลี่ยนเป็นระบบสตรีมมิ่ง จะพบกับปัญหาคอขวดหลักสองประการ:

  • ความสนใจแบบบล็อกเชิงสาเหตุที่เข้มงวดไม่สามารถรับข้อมูลเสียง “ในอนาคตอันใกล้” ได้ แต่ในกระบวนการพูดจริง การเคลื่อนไหวของริมฝีปากมักจะเกิดขึ้นก่อนเสียง ซึ่งเป็นปรากฏการณ์การออกเสียงร่วมที่ชัดเจน
  • การกลั่นแบบไม่กี่ขั้นตอนแม้จะเร่งความเร็วได้ แต่มักนำไปสู่การเสื่อมสภาพแบบ “เฉลี่ย” ผลลัพธ์ที่ได้คือพื้นผิววิดีโอเบลอ เสียงดูเป็นกลไกมากขึ้น และการซิงค์เสียง-ภาพก็มีแนวโน้มที่จะเลื่อนออกไป

กรอบงานโดยรวมของ Hallo-Live

Hallo-Live ประกอบด้วยสองขั้นตอนการฝึก ขั้นตอนแรกคือการเริ่มต้น ODE แบบสองสตรีม: โมเดลจะรับอินพุตบล็อกเสียงและวิดีโอที่มีระดับสัญญาณรบกวนต่างกันพร้อมกัน ฝึก DiT แบบสองสตรีมโดยใช้มาสก์เชิงสาเหตุระดับบล็อกแบบโมดอลเดียวและข้ามโมดอล ทำให้ข้อจำกัดการมองเห็นในขั้นตอนการฝึกสอดคล้องกับการอนุมานแบบสตรีมมิ่ง ขั้นตอนที่สองคือการขยายตัวเอง + DMD แบบสองสตรีม: โมเดลนักเรียนสร้างวิดีโอและเสียงที่สมบูรณ์แบบ autoregressive โดยใช้ KV cache ของเสียงและวิดีโอ จากนั้นจึงนำรางวัลที่เกี่ยวข้องกับการซิงค์เสียง วิดีโอ และเสียง-ภาพ มาถ่วงน้ำหนักการสูญเสีย DMD แบบสองสตรีม เพื่อกลั่นโมเดลครูให้เป็นโมเดลแบบไม่กี่ขั้นตอน

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

โมดูลการผสานเชิงสาเหตุ เป็นหน่วยหลักของ DiT แบบสองสตรีมของ Hallo-Live: สตรีมวิดีโอและสตรีมเสียงจะคำนวณความสนใจในตนเองเชิงสาเหตุระดับบล็อกแบบโมดอลเดียวก่อน จากนั้นจึงฉีดเงื่อนไขข้อความ จากนั้นจึงแลกเปลี่ยนข้อมูลผ่านความสนใจข้ามโมดอลเชิงสาเหตุระดับบล็อก เพื่อทำการผสานเสียง-วิดีโอในระหว่างการสร้างแบบสตรีมมิ่ง โดยที่ความสนใจจากวิดีโอไปยังเสียงใช้มาสก์เชิงสาเหตุระดับบล็อกแบบขยายอนาคต ทำให้บล็อกวิดีโอปัจจุบันสามารถมองเห็นบริบทเสียงในอนาคตจำนวนเล็กน้อย

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

เทคโนโลยีสำคัญ 1: ความสนใจแบบขยายอนาคต

นวัตกรรมแรกของบทความคือความสนใจแบบขยายอนาคต ผู้เขียนสังเกตว่าหากสตรีมวิดีโอสามารถมองเห็นเฉพาะบล็อกเสียงปัจจุบันและอดีต โมเดลจะทำการเคลื่อนไหวต่างๆ เช่น การอ้าปาก ปิดปาก และการเปลี่ยนผ่านระหว่างริมฝีปากและฟันตามธรรมชาติได้ยาก ดังนั้น พวกเขาจึงออกแบบความสนใจข้ามโมดอลจากวิดีโอไปยังเสียงให้เป็น “แบบไม่สมมาตร”: วิดีโอยังคงโฟกัสที่บล็อกปัจจุบัน แต่ช่วงคีย์-ค่าเสียงจะขยายไปข้างหน้าเพิ่มเติมเป็นหน้าต่างมองล่วงหน้าสั้นๆ

ซึ่งเทียบเท่ากับการจัดหา “พื้นที่อ่านล่วงหน้า” ระยะสั้นให้กับสตรีมวิดีโอ สิ่งสำคัญคือ บล็อกเสียงในอนาคตนี้ไม่ใช่เอาต์พุตสุดท้าย แต่เป็นบล็อกชั่วคราวที่สามารถถูกแทนที่ด้วยขั้นตอนถัดไป ดังนั้นจึงไม่ส่งผลกระทบต่อคุณภาพของเสียงที่สร้างขึ้นสุดท้าย

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

โดยสัญชาตญาณ ความสนใจเชิงสาเหตุระดับบล็อกที่เข้มงวดสามารถมองเห็นเฉพาะเสียงปัจจุบัน ในขณะที่ความสนใจแบบขยายอนาคตอนุญาตให้บล็อกวิดีโอเข้าถึงเสียงในอนาคตจำนวนเล็กน้อย ซึ่งช่วยปรับปรุงการซิงค์ปาก

เทคโนโลยีสำคัญ 2: การกลั่น “ความชอบ” โดยตรงลงในโมเดลนักเรียน

หากความสนใจแบบขยายอนาคตแก้ปัญหา “มองไม่เห็นเสียงในอนาคต” แล้ว HP-DMD จะแก้ปัญหา “ทำไมเมื่อเร่งความเร็วแล้วถึงดูแย่ลง แข็งทื่อ และไม่ซิงค์กัน”

แนวทางของผู้เขียนคือการเปลี่ยนเป้าหมายการกลั่นจากการเลียนแบบการกระจายของโมเดลครูเพียงอย่างเดียว ไปเป็น “การกระจายของโมเดลครูที่ถ่วงน้ำหนักด้วยรางวัล” โดยที่:

  • VideoAlign มีหน้าที่วัดความสวยงามของวิดีโอและการจัดตำแหน่งกับข้อความ/ภาพ
  • SyncNet มีหน้าที่วัดว่ารูปร่างปากซิงค์กับเสียงหรือไม่
  • AudioBox มีหน้าที่วัดความเป็นธรรมชาติของเสียงและคุณภาพทางเสียง

ในภาษาที่ใกล้เคียงกับการเรียนรู้แบบเสริมกำลัง/การปรับรางวัลให้เหมาะสม แกนหลักของ Hallo-Live ไม่ใช่การทำ policy gradient โดยตรง แต่เป็นการให้คะแนนตัวอย่างที่สร้างโดยโมเดลนักเรียนก่อน จากนั้นจึงฉีดรางวัลเหล่านี้กลับเข้าไปในเป้าหมายการกลั่นผ่านการถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียล จากมุมมองของการกระจาย สิ่งนี้เทียบเท่ากับการไม่เพียงแค่拟合การกระจาย p_T ของโมเดลครู แต่เป็นการ拟合การกระจายเป้าหมายใหม่ที่ถูกเอียงด้วยรางวัล

โดยสัญชาตญาณ วิธีการเขียนนี้เหมือน “การกลั่นแบบถ่วงน้ำหนักด้วยรางวัล” มากกว่าการอัปเดต policy gradient ในแบบดั้งเดิมของการเรียนรู้แบบเสริมกำลัง: โมเดลไม่ได้ทำการปรับ RL ให้เหมาะสมกับความน่าจะเป็นของการกระทำโดยตรง แต่ปรับเปลี่ยนการกระจายเป้าหมายที่นักเรียนต้องเข้าใกล้ผ่านรางวัล

ผลลัพธ์เป็นอย่างไร? ความเร็วเกือบ “ทิ้งห่าง” คุณภาพใกล้เคียงกับโมเดลครูขนาดใหญ่

จากผลลัพธ์หลัก จุดเด่นที่โดดเด่นที่สุดของ Hallo-Live คือการผลักดันการสร้างวิดีโอและเสียงจากข้อความเข้าสู่ช่วงเรียลไทม์เป็นครั้งแรก

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

จากผลลัพธ์ของเมตริก:

  • ความเร็ว: Hallo-Live ทำได้ 20.38 FPS ความหน่วง 0.94 วินาที ซึ่งเร็วกว่าวิธีการต่างๆ เช่น Ovi, LTX-2, JavisDiT และ UniVerse-1 อย่างเห็นได้ชัด
  • คุณภาพ: ในเมตริกต่างๆ เช่น VideoAlign Overall (2.32), Sync-C (4.72) และความเที่ยงตรงของมนุษย์ (0.90/0.98/0.92) Hallo-Live โดยรวมใกล้เคียงกับ Ovi และ LTX-2 และไม่มีการบิดเบือนที่ชัดเจนเนื่องจากการเพิ่มความเร็ว

ชุดผลลัพธ์นี้แสดงให้เห็นว่า Hallo-Live ไม่ได้แลกคุณภาพอย่างรุนแรงเพื่อความเร็ว แต่ภายใต้สมมติฐานของการรักษาคุณภาพเป็นหลัก ได้ผลักดันระบบให้ถึงระดับความเร็วที่สามารถโต้ตอบได้ ซึ่งมีความสำคัญอย่างยิ่งสำหรับสถานการณ์ต่างๆ เช่น การถ่ายทอดสดอวตารดิจิทัล การสวมบทบาท และพิธีกรเสมือน

ความหมายและแนวโน้ม

คุณค่าของ Hallo-Live ไม่ได้อยู่ที่การเพิ่มความเร็วเพียงอย่างเดียว แต่อยู่ที่การนำเสนอเส้นทางทางเทคนิคที่เป็นตัวแทนอย่างยิ่ง: ภายใต้กรอบการสร้างเชิงสาเหตุแบบสตรีมมิ่ง การสร้างวิดีโอและเสียงร่วมกันให้สำเร็จ สำหรับอุตสาหกรรมอวตารดิจิทัล มันนำเสนอรูปแบบโมเดลที่สามารถปรับใช้ โต้ตอบ และขยายได้

แน่นอน บทความไม่ได้อ้างว่าปัญหาทั้งหมดได้รับการแก้ไขอย่างสมบูรณ์แล้ว ตัวอย่างเช่น จากเมตริก Hallo-Live ยังคงไม่สามารถเอาชนะโมเดลออฟไลน์หรือโมเดลหนักที่ดีที่สุดในแง่ของการซิงค์และคุณภาพเสียงได้อย่างสมบูรณ์ ในขณะเดียวกัน แพลตฟอร์มการทดลองในปัจจุบันยังคงต้องพึ่งพาNVIDIA H200 สองตัว ซึ่งยังมีพื้นที่สำหรับการปรับให้เหมาะสมก่อนที่จะปรับใช้บนฮาร์ดแวร์ต้นทุนต่ำ อย่างไรก็ตาม หากมองว่า “อวตารดิจิทัลที่ขับเคลื่อนด้วยข้อความแบบเรียลไทม์” เป็นเป้าหมายระยะยาว Hallo-Live ได้ให้คำตอบในระยะที่ค่อนข้างชัดเจนแล้ว

ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/36259

Like (0)
Previous 5 hours ago
Next 5 hours ago

相关推荐