ทีมงานจากมหาวิทยาลัยฟู่ต้านเปิดตัว Hallo-Live: ดีเลย์ของดิจิทัลฮิวแมนแบบเรียลไทม์เสียงและวิดีโอต่ำถึง 0.94 วินาที ความเร็วในการประมวลผลเพิ่มขึ้น 16 เท่า

5 hours ago • ข่าวสารอุตสาหกรรม AI • 11 views

หลี่ชุนหยู นักศึกษาปริญญาเอกจากมหาวิทยาลัยฟู่ต้าน เป็นผู้เขียนหลักของบทความนี้ โดยมีสาขาการวิจัยหลักคือโมเดลการแพร่กระจายสำหรับการสร้างวิดีโอ ผู้เขียนร่วมคนแรกคือหลี่เจียเย่ นักศึกษาปริญญาโทจากมหาวิทยาลัยฟู่ต้าน ผู้เขียนที่ติดต่อได้คือศาสตราจารย์จูซือหยู่ จากมหาวิทยาลัยฟู่ต้าน ซึ่งเป็นอาจารย์ประจำเต็มเวลาของสถาบันเซี่ยงไฮ้ครีเอทีฟ

อวตารดิจิทัลที่ขับเคลื่อนด้วยข้อความกำลังก้าวจาก “การสร้างได้” ไปสู่ “การโต้ตอบแบบเรียลไทม์” อย่างไรก็ตาม เส้นทางนี้เต็มไปด้วยความท้าทาย ในด้านหนึ่ง การสร้างวิดีโอและเสียงร่วมกันนั้นเป็นงานที่มีมิติสูงและใช้การคำนวณมาก ในอีกด้านหนึ่ง หากเร่งความเร็วอย่างรุนแรงเพื่อ追求ความเร็ว การซิงค์ปาก ความเป็นธรรมชาติของเสียง และรายละเอียดของตัวละครมักจะเสื่อมลงพร้อมกัน

เมื่อเร็วๆ นี้ นักวิจัยจากสถาบันเซี่ยงไฮ้ครีเอทีฟ มหาวิทยาลัยฟู่ต้าน และหน่วยงานอื่นๆ ได้เสนอ Hallo-Live เพื่อแก้ไขปัญหานี้โดยตรง บทความนี้เผยแพร่บน arXiv เมื่อวันที่ 26 เมษายน 2026 วิธีการนี้ผสานการแพร่กระจายแบบสองสตรีมแบบอะซิงโครนัสเข้ากับการกลั่นที่นำโดยความชอบของมนุษย์ บน GPU NVIDIA H200 สองตัว สามารถทำปริมาณงานได้ 20.38 FPS และความหน่วงแบบ end-to-end 0.94 วินาที เมื่อเทียบกับโมเดลครู Ovi ปริมาณงานเพิ่มขึ้น 16.0 เท่า ความหน่วงลดลง 99.3% ในขณะที่ยังคงรักษาคุณภาพของภาพและการซิงค์เสียง-ภาพที่ใกล้เคียงกับโมเดลครู

ชื่อบทความ: Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
ลิงก์บทความ: https://arxiv.org/abs/2604.23632
ที่อยู่โค้ด: https://github.com/fudan-generative-vision/Hallo-Live

การสาธิตนี้แสดงให้เห็นถึงความสามารถของ Hallo-Live ในการสร้างวิดีโอและเสียงแบบเรียลไทม์ที่ขับเคลื่อนด้วยข้อความในสไตล์อนิเมะ ตัวละครที่สมจริง และสถานการณ์ที่มีผู้พูดหลายคน

ทำไมการสร้างวิดีโอและเสียงแบบเรียลไทม์จึงยากนัก?

ต่างจากอวตารดิจิทัลที่ขับเคลื่อนด้วยเสียง การสร้างวิดีโอและเสียงที่ขับเคลื่อนด้วยข้อความจำเป็นต้องทำงานสองอย่างพร้อมกัน: ขั้นแรก “เข้าใจ” ตัวละคร ฉาก น้ำเสียง และสภาพแวดล้อมทางเสียงในข้อความ จากนั้นจึงสร้างวิดีโอพูดและเสียงที่สอดคล้องกันพร้อมกัน ซึ่งหมายความว่าโมเดลไม่เพียงแต่ต้องรับประกันคุณภาพของภาพและความเป็นธรรมชาติของเสียงเท่านั้น แต่ยังต้องจัดตำแหน่งการซิงค์ปาก การออกเสียง การแสดงออก และแม้แต่การเคลื่อนไหวของร่างกายส่วนบนให้ตรงกับไทม์ไลน์เดียวกันอย่างแม่นยำ

ในงานที่มีอยู่ โมเดลการแพร่กระจายแบบสองสตรีม เช่น Ovi ได้พิสูจน์แล้วว่าการสร้างแบบจำลองสตรีมเสียงและสตรีมวิดีโอแยกกัน จากนั้นจึงทำการผสานข้ามโมดอลเป็นเส้นทางที่มีประสิทธิภาพ แต่ปัญหาคือ โมเดลประเภทนี้มักจะเน้นไปที่การสร้างคุณภาพสูงแบบออฟไลน์ และยังห่างไกลจากการโต้ตอบแบบเรียลไทม์ ผู้เขียนชี้ให้เห็นว่าเมื่อปรับเปลี่ยนเป็นระบบสตรีมมิ่ง จะพบกับปัญหาคอขวดหลักสองประการ:

ความสนใจแบบบล็อกเชิงสาเหตุที่เข้มงวดไม่สามารถรับข้อมูลเสียง “ในอนาคตอันใกล้” ได้ แต่ในกระบวนการพูดจริง การเคลื่อนไหวของริมฝีปากมักจะเกิดขึ้นก่อนเสียง ซึ่งเป็นปรากฏการณ์การออกเสียงร่วมที่ชัดเจน
การกลั่นแบบไม่กี่ขั้นตอนแม้จะเร่งความเร็วได้ แต่มักนำไปสู่การเสื่อมสภาพแบบ “เฉลี่ย” ผลลัพธ์ที่ได้คือพื้นผิววิดีโอเบลอ เสียงดูเป็นกลไกมากขึ้น และการซิงค์เสียง-ภาพก็มีแนวโน้มที่จะเลื่อนออกไป

กรอบงานโดยรวมของ Hallo-Live

Hallo-Live ประกอบด้วยสองขั้นตอนการฝึก ขั้นตอนแรกคือการเริ่มต้น ODE แบบสองสตรีม: โมเดลจะรับอินพุตบล็อกเสียงและวิดีโอที่มีระดับสัญญาณรบกวนต่างกันพร้อมกัน ฝึก DiT แบบสองสตรีมโดยใช้มาสก์เชิงสาเหตุระดับบล็อกแบบโมดอลเดียวและข้ามโมดอล ทำให้ข้อจำกัดการมองเห็นในขั้นตอนการฝึกสอดคล้องกับการอนุมานแบบสตรีมมิ่ง ขั้นตอนที่สองคือการขยายตัวเอง + DMD แบบสองสตรีม: โมเดลนักเรียนสร้างวิดีโอและเสียงที่สมบูรณ์แบบ autoregressive โดยใช้ KV cache ของเสียงและวิดีโอ จากนั้นจึงนำรางวัลที่เกี่ยวข้องกับการซิงค์เสียง วิดีโอ และเสียง-ภาพ มาถ่วงน้ำหนักการสูญเสีย DMD แบบสองสตรีม เพื่อกลั่นโมเดลครูให้เป็นโมเดลแบบไม่กี่ขั้นตอน

โมดูลการผสานเชิงสาเหตุ เป็นหน่วยหลักของ DiT แบบสองสตรีมของ Hallo-Live: สตรีมวิดีโอและสตรีมเสียงจะคำนวณความสนใจในตนเองเชิงสาเหตุระดับบล็อกแบบโมดอลเดียวก่อน จากนั้นจึงฉีดเงื่อนไขข้อความ จากนั้นจึงแลกเปลี่ยนข้อมูลผ่านความสนใจข้ามโมดอลเชิงสาเหตุระดับบล็อก เพื่อทำการผสานเสียง-วิดีโอในระหว่างการสร้างแบบสตรีมมิ่ง โดยที่ความสนใจจากวิดีโอไปยังเสียงใช้มาสก์เชิงสาเหตุระดับบล็อกแบบขยายอนาคต ทำให้บล็อกวิดีโอปัจจุบันสามารถมองเห็นบริบทเสียงในอนาคตจำนวนเล็กน้อย

เทคโนโลยีสำคัญ 1: ความสนใจแบบขยายอนาคต

นวัตกรรมแรกของบทความคือความสนใจแบบขยายอนาคต ผู้เขียนสังเกตว่าหากสตรีมวิดีโอสามารถมองเห็นเฉพาะบล็อกเสียงปัจจุบันและอดีต โมเดลจะทำการเคลื่อนไหวต่างๆ เช่น การอ้าปาก ปิดปาก และการเปลี่ยนผ่านระหว่างริมฝีปากและฟันตามธรรมชาติได้ยาก ดังนั้น พวกเขาจึงออกแบบความสนใจข้ามโมดอลจากวิดีโอไปยังเสียงให้เป็น “แบบไม่สมมาตร”: วิดีโอยังคงโฟกัสที่บล็อกปัจจุบัน แต่ช่วงคีย์-ค่าเสียงจะขยายไปข้างหน้าเพิ่มเติมเป็นหน้าต่างมองล่วงหน้าสั้นๆ

ซึ่งเทียบเท่ากับการจัดหา “พื้นที่อ่านล่วงหน้า” ระยะสั้นให้กับสตรีมวิดีโอ สิ่งสำคัญคือ บล็อกเสียงในอนาคตนี้ไม่ใช่เอาต์พุตสุดท้าย แต่เป็นบล็อกชั่วคราวที่สามารถถูกแทนที่ด้วยขั้นตอนถัดไป ดังนั้นจึงไม่ส่งผลกระทบต่อคุณภาพของเสียงที่สร้างขึ้นสุดท้าย

โดยสัญชาตญาณ ความสนใจเชิงสาเหตุระดับบล็อกที่เข้มงวดสามารถมองเห็นเฉพาะเสียงปัจจุบัน ในขณะที่ความสนใจแบบขยายอนาคตอนุญาตให้บล็อกวิดีโอเข้าถึงเสียงในอนาคตจำนวนเล็กน้อย ซึ่งช่วยปรับปรุงการซิงค์ปาก

เทคโนโลยีสำคัญ 2: การกลั่น “ความชอบ” โดยตรงลงในโมเดลนักเรียน

หากความสนใจแบบขยายอนาคตแก้ปัญหา “มองไม่เห็นเสียงในอนาคต” แล้ว HP-DMD จะแก้ปัญหา “ทำไมเมื่อเร่งความเร็วแล้วถึงดูแย่ลง แข็งทื่อ และไม่ซิงค์กัน”

แนวทางของผู้เขียนคือการเปลี่ยนเป้าหมายการกลั่นจากการเลียนแบบการกระจายของโมเดลครูเพียงอย่างเดียว ไปเป็น “การกระจายของโมเดลครูที่ถ่วงน้ำหนักด้วยรางวัล” โดยที่:

VideoAlign มีหน้าที่วัดความสวยงามของวิดีโอและการจัดตำแหน่งกับข้อความ/ภาพ
SyncNet มีหน้าที่วัดว่ารูปร่างปากซิงค์กับเสียงหรือไม่
AudioBox มีหน้าที่วัดความเป็นธรรมชาติของเสียงและคุณภาพทางเสียง

ในภาษาที่ใกล้เคียงกับการเรียนรู้แบบเสริมกำลัง/การปรับรางวัลให้เหมาะสม แกนหลักของ Hallo-Live ไม่ใช่การทำ policy gradient โดยตรง แต่เป็นการให้คะแนนตัวอย่างที่สร้างโดยโมเดลนักเรียนก่อน จากนั้นจึงฉีดรางวัลเหล่านี้กลับเข้าไปในเป้าหมายการกลั่นผ่านการถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียล จากมุมมองของการกระจาย สิ่งนี้เทียบเท่ากับการไม่เพียงแค่拟合การกระจาย p_T ของโมเดลครู แต่เป็นการ拟合การกระจายเป้าหมายใหม่ที่ถูกเอียงด้วยรางวัล

โดยสัญชาตญาณ วิธีการเขียนนี้เหมือน “การกลั่นแบบถ่วงน้ำหนักด้วยรางวัล” มากกว่าการอัปเดต policy gradient ในแบบดั้งเดิมของการเรียนรู้แบบเสริมกำลัง: โมเดลไม่ได้ทำการปรับ RL ให้เหมาะสมกับความน่าจะเป็นของการกระทำโดยตรง แต่ปรับเปลี่ยนการกระจายเป้าหมายที่นักเรียนต้องเข้าใกล้ผ่านรางวัล

ผลลัพธ์เป็นอย่างไร? ความเร็วเกือบ “ทิ้งห่าง” คุณภาพใกล้เคียงกับโมเดลครูขนาดใหญ่

จากผลลัพธ์หลัก จุดเด่นที่โดดเด่นที่สุดของ Hallo-Live คือการผลักดันการสร้างวิดีโอและเสียงจากข้อความเข้าสู่ช่วงเรียลไทม์เป็นครั้งแรก

จากผลลัพธ์ของเมตริก:

ความเร็ว: Hallo-Live ทำได้ 20.38 FPS ความหน่วง 0.94 วินาที ซึ่งเร็วกว่าวิธีการต่างๆ เช่น Ovi, LTX-2, JavisDiT และ UniVerse-1 อย่างเห็นได้ชัด
คุณภาพ: ในเมตริกต่างๆ เช่น VideoAlign Overall (2.32), Sync-C (4.72) และความเที่ยงตรงของมนุษย์ (0.90/0.98/0.92) Hallo-Live โดยรวมใกล้เคียงกับ Ovi และ LTX-2 และไม่มีการบิดเบือนที่ชัดเจนเนื่องจากการเพิ่มความเร็ว

ชุดผลลัพธ์นี้แสดงให้เห็นว่า Hallo-Live ไม่ได้แลกคุณภาพอย่างรุนแรงเพื่อความเร็ว แต่ภายใต้สมมติฐานของการรักษาคุณภาพเป็นหลัก ได้ผลักดันระบบให้ถึงระดับความเร็วที่สามารถโต้ตอบได้ ซึ่งมีความสำคัญอย่างยิ่งสำหรับสถานการณ์ต่างๆ เช่น การถ่ายทอดสดอวตารดิจิทัล การสวมบทบาท และพิธีกรเสมือน

ความหมายและแนวโน้ม

คุณค่าของ Hallo-Live ไม่ได้อยู่ที่การเพิ่มความเร็วเพียงอย่างเดียว แต่อยู่ที่การนำเสนอเส้นทางทางเทคนิคที่เป็นตัวแทนอย่างยิ่ง: ภายใต้กรอบการสร้างเชิงสาเหตุแบบสตรีมมิ่ง การสร้างวิดีโอและเสียงร่วมกันให้สำเร็จ สำหรับอุตสาหกรรมอวตารดิจิทัล มันนำเสนอรูปแบบโมเดลที่สามารถปรับใช้ โต้ตอบ และขยายได้

แน่นอน บทความไม่ได้อ้างว่าปัญหาทั้งหมดได้รับการแก้ไขอย่างสมบูรณ์แล้ว ตัวอย่างเช่น จากเมตริก Hallo-Live ยังคงไม่สามารถเอาชนะโมเดลออฟไลน์หรือโมเดลหนักที่ดีที่สุดในแง่ของการซิงค์และคุณภาพเสียงได้อย่างสมบูรณ์ ในขณะเดียวกัน แพลตฟอร์มการทดลองในปัจจุบันยังคงต้องพึ่งพาNVIDIA H200 สองตัว ซึ่งยังมีพื้นที่สำหรับการปรับให้เหมาะสมก่อนที่จะปรับใช้บนฮาร์ดแวร์ต้นทุนต่ำ อย่างไรก็ตาม หากมองว่า “อวตารดิจิทัลที่ขับเคลื่อนด้วยข้อความแบบเรียลไทม์” เป็นเป้าหมายระยะยาว Hallo-Live ได้ให้คำตอบในระยะที่ค่อนข้างชัดเจนแล้ว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/36259

Like (0)

0 0

ซุน อวี่เฉิน, ฟู่ เซิง และครอบครัวทรัมป์แห่เข้าสู่วงการ ธุรกิจสีเทา AI Relay Station สร้างกำไรได้มากแค่ไหน?

Previous 5 hours ago

AI นักล่าช่องโหว่สุดโหด 30 วันเจอ 10,000 จุดรั่ว สกัดกั้นแก๊งคอลเซ็นเตอร์ 1.5 ล้านครั้ง! โปรแกรมเมอร์มนุษย์ร้องขอชีวิต: ซ่อมไม่ทันแล้ว

Next 5 hours ago

ข่าวสารอุตสาหกรรม AI

DeepSeek V4 สถาปัตยกรรมปฏิวัติ: นวัตกรรมคู่แกน mHC และ Engram พลิกโฉมรูปแบบการทำงานด้านการเขียนโปรแกรมแบบดั้งเดิม

2026 ปีใหม่จีนใกล้เข้ามา วงการ AI ทั่วโลกก็มีข่าวลือสำคัญเช่นกัน — ห้องปฏิบัติการ AI ของจีน DeepSeek คาดว่าจะเปิดตัวโมเดลใหญ่เรือธงรุ่นที่สี่ DeepSeek V4 อย่างเป็นทางการในช่วงวันหย…

2026年2月7日
316000
ข่าวสารอุตสาหกรรม AI

AI เจ้าพ่อ Andrej Karpathy ปล่อยแหล่งข้อมูลคุณภาพสูง 92 รายการแบบโอเพนซอร์ส: ตั้งแต่ nanoGPT ถึง RSS feed สร้างระบบความรู้การเรียนรู้เชิงลึก

Andrej Karpathy เป็นที่ยอมรับในวงการ AI ว่าเป็นอัจฉริยะ เขาเป็น สมาชิกผู้ก่อตั้ง OpenAI ต่อมาถูก Elon Musk ดึงตัวไป และได้เป็นผู้นำทีมขับขี่อัตโนมัติของ Tesla หลังจากออกจาก Tesla เ…

2026年2月10日
313000
ข่าวสารอุตสาหกรรม AI

ArchAgent: AI ออกแบบกลยุทธ์แคชที่เพิ่มประสิทธิภาพ 5.3% ในเวลาเพียงสองวัน ปฏิวัติการออกแบบฮาร์ดแวร์แบบดั้งเดิม

คำสำคัญ: การออกแบบฮาร์ดแวร์ขับเคลื่อนด้วย AI, กลยุทธ์การแทนที่แคช, แบบจำลองภาษาขนาดใหญ่, อัลกอริทึมวิวัฒนาการ, สถาปัตยกรรมคอมพิวเตอร์ ระบบที่ขับเคลื่อนด้วย AI ทั้งหมด โดยไม่มีการแท…

2026年3月14日
277000
ข่าวสารอุตสาหกรรม AI

ผู้ก่อตั้ง GitLab ใช้ AI และการคิดเชิงระบบสู้กับมะเร็ง: เมื่อวิศวกรเปิด ‘โหมดผู้ก่อตั้ง’ เพื่อช่วยเหลือตัวเอง

เมื่อเราพูดถึง “เรื่องราวการต่อสู้กับมะเร็ง” คำว่า “สร้างแรงบันดาลใจ” มักถูกใช้บ่อยที่สุด แต่สำหรับ Sid Sijbrandij ผู้ร่วมก่อตั้ง GitLab แล้ว คำคำนี้ยังไม่เ…

2026年3月29日
255000
ข่าวสารอุตสาหกรรม AI

PaperBanana: มหาวิทยาลัยปักกิ่งร่วมมือกับ Google เปิดตัวเครื่องมือสร้างภาพประกอบ AI สำหรับงานวิจัย สร้างแผนภูมิระดับท็อปคอนเฟอเรนซ์ได้ในคลิกเดียว

คุณเขียนเมธอด AI วาด Figure นักวิจัยรุ่นใหม่ ถึงเวลาของ “วันปลดแอกการวาดรูป” แล้ว ยังคงต้องนอนดึกวาด PPT ลากลูกศร จัดแนวฟอนต์เพื่อสร้างแผนผังวิธีวิทยาในบทความวิจัยอยู่ห…

2026年2月5日
285000

ความหมายและแนวโน้ม

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

DeepSeek V4 สถาปัตยกรรมปฏิวัติ: นวัตกรรมคู่แกน mHC และ Engram พลิกโฉมรูปแบบการทำงานด้านการเขียนโปรแกรมแบบดั้งเดิม

ArchAgent: AI ออกแบบกลยุทธ์แคชที่เพิ่มประสิทธิภาพ 5.3% ในเวลาเพียงสองวัน ปฏิวัติการออกแบบฮาร์ดแวร์แบบดั้งเดิม

ผู้ก่อตั้ง GitLab ใช้ AI และการคิดเชิงระบบสู้กับมะเร็ง: เมื่อวิศวกรเปิด ‘โหมดผู้ก่อตั้ง’ เพื่อช่วยเหลือตัวเอง