ไบต์แดนซ์จับมือปักกิ่งโอเพ่นซอร์สโมเดลวิดีโอ Helios: 14B พารามิเตอร์ทำได้ 19.5 FPS ขึ้นแท่น Hugging Face!

ในช่วงเทศกาลตรุษจีน ความนิยมอย่างล้นหลามของ Seedance 2.0 ได้ผลักดันเทคโนโลยีการสร้างวิดีโอให้กลับมาเป็นที่สนใจอีกครั้ง ตามมาด้วยการที่ ByteDance ร่วมกับมหาวิทยาลัยปักกิ่ง บริษัท Anu Intelligent และ Canva ได้เปิดตัวชุดโมเดลวิดีโอที่สามารถสร้างวิดีโอแบบเรียลไทม์เป็นโอเพนซอร์ส ชื่อว่า Helios ชุดโมเดลนี้ประกอบด้วย Helios-Base, Helios-Mid และ Helios-Distilled สามเวอร์ชัน ซึ่งรองรับงานสร้างวิดีโอจากข้อความ (T2V), จากภาพ (I2V), จากวิดีโอ (V2V) และการสร้างแบบอินเทอร์แอคทีฟอย่างครบถ้วน ด้วยพารามิเตอร์เพียง 14B เท่านั้น Helios บรรลุความเร็วในการสร้างวิดีโอสูงถึง 19.5 FPS บนการ์ดเดียว สร้างสมดุลที่ยอดเยี่ยมระหว่างคุณภาพการสร้างและประสิทธิภาพการอนุมาน

ที่น่าสนใจคือ โครงการนี้รองรับ Ascend NPU ในระดับ Day-0 ทันทีในวันเปิดตัว พร้อมทั้งเข้ากันได้กับเฟรมเวิร์กการอนุมานหลักๆ เช่น Diffusers, vLLM-Omni, SGLang-Diffusion

ด้วยประสิทธิภาพอันยอดเยี่ยมและความเข้ากันได้ทางนิเวศวิทยาที่กว้างขวาง Helios ขึ้นสู่ตำแหน่งสูงสุดของ Hugging Face Daily Papers อย่างรวดเร็ว บน GitHub โครงการโอเพนซอร์สที่เปิดตัวมาเพียงหนึ่งถึงสองวันนี้ ได้รับดาวแล้วกว่า 520 ดวง

ชื่อบทความวิจัย: Helios: Real Real-Time Long Video Generation Model
ที่อยู่บทความวิจัย: https://arxiv.org/abs/2603.04379
ที่อยู่โครงการ:
- https://github.com/PKU-YuanGroup/Helios
- https://gitcode.com/weixin_47617277/Helios

ในขณะที่ชุมชนให้ความสนใจกับความสามารถในการสร้างวิดีโอคุณภาพสูงและความเร็วสูง การวิเคราะห์ทางเทคนิคได้เผยที่มาทางเทคโนโลยีเบื้องหลัง: ทีมพัฒนาหลักของ Helios มาจากกลุ่มวิจัยของศาสตราจารย์ Yuan Li แห่งมหาวิทยาลัยปักกิ่ง โดยสแต็กเทคโนโลยีมีความคล้ายคลึงกันสูงกับโครงการ Open-Sora Plan (OSP) ที่ทีมเคยเปิดตัวเป็นโอเพนซอร์สมาก่อน กล่าวคือ Helios มีการนำโค้ดกลับมาใช้ซ้ำประมาณหนึ่งในสามถึงครึ่งหนึ่งจาก UniWorld-OSP2.0 ที่ทีม OSP เพิ่งเปิดตัวเป็นโอเพนซอร์ส

กล่าวได้ว่า Helios เป็นการยืนยันประสิทธิภาพของแนวทางเทคโนโลยีหลักนี้อีกครั้ง โดยมีประสิทธิภาพที่โดดเด่นกว่าโมเดล OSP-RealTime 14B ที่ทีม OSP พัฒนาขึ้นจาก UniWorld-OSP2.0

ที่น่าสนใจยิ่งกว่านั้นคือ เอนจิ้นพลังการคำนวณที่รองรับโครงการชุด OSP ชี้ไปที่นิเวศวิทยาพลังการคำนวณขนาดใหญ่ที่พัฒนาภายในประเทศ นั่นคือ Kunpeng และ Ascend โครงการโอเพนซอร์สเหล่านี้เกิดขึ้นได้ด้วยการสนับสนุนพลังการคำนวณและการเสริมพลังจากศูนย์ความเป็นเลิศด้านนวัตกรรมการศึกษา Kunpeng Ascend แห่งมหาวิทยาลัยปักกิ่ง เมื่อพูดถึงประสิทธิภาพอันน่าทึ่งของมัน การสนับสนุนอันแข็งแกร่งจากฐานพลังการคำนวณ Ascend ไม่ควรถูกละเลย

จากความสำเร็จของ Seedance 2.0 ถึง Helios จะเห็นได้ว่าชุมชนการสร้างวิดีโอ AI กำลังสร้างฉันทามติทางเทคนิคที่ชัดเจนยิ่งขึ้น: ความสามารถในการสร้างวิดีโอระดับ SOTA กำลังมาบรรจบกันอย่างรวดเร็วสู่กระบวนทัศน์แบบรวมศูนย์โดยมี Diffusion Transformer (DiT) เป็นแกนกลาง ในขณะเดียวกัน จุดแข่งขันของโมเดลกำลังเปลี่ยนจากคุณภาพภาพพื้นฐานไปสู่ความลึกของการทำความเข้าใจความหมายระดับสูงและประสิทธิภาพการทำงานร่วมกันของหลายโหมด

ภายใต้จุดเปลี่ยนทางเทคโนโลยีและการแผ่ขยายของนิเวศวิทยาโอเพนซอร์สดังกล่าว UniWorld-OSP2.0 ที่ทีม Open-Sora Plan นำออกมา ได้เข้าสู่สายตาของนักวิจัยมากขึ้นเรื่อยๆ

นี่ไม่ใช่เพียงการอัปเดตเวอร์ชันง่ายๆ ในฐานะโมเดลใหญ่สร้างวิดีโอโอเพนซอร์สรุ่นแรกของอุตสาหกรรมที่มีพารามิเตอร์เกินหนึ่งหมื่นล้าน (21B) UniWorld-OSP2.0 ยังเป็นระบบโมเดลใหญ่รุ่นแรกที่บรรลุกระบวนทัศน์แบบรวมศูนย์ “ทวิพื้นเมือง” (Ascend Native & สถาปัตยกรรมผสมระหว่าง Autoregressive+Diffusion)

ที่อยู่โอเพนซอร์สของ UniWorld-OSP2.0:
* https://modelers.cn/models/PKU-YUAN-Group/Uniworld-OSP2.0
* https://github.com/PKU-YuanGroup/UniWorld/tree/main/UniWorld-OSP2.0

ในด้านตัวชี้วัดการประเมินหลัก ผลการทำงานบนเกณฑ์มาตรฐาน VBench-I2V ได้แซงหน้า Wan2.1 อย่างสมบูรณ์ และกลายเป็นหนึ่งในจุดอ้างอิงทางเทคนิคที่มีความหมายมากที่สุดในนิเวศวิทยาการสร้างวิดีโอโอเพนซอร์สอย่างรวดเร็ว

ไบต์แดนซ์จับมือปักกิ่งโอเพ่นซอร์สโมเดลวิดีโอ Helios: 14B พารามิเตอร์ทำได้ 19.5 FPS ขึ้นแท่น Hugging Face!
การเปรียบเทียบผลการทำงานระหว่าง UniWorld-OSP2.0 กับโมเดลวิดีโอโอเพนซอร์สอื่นๆ บนเกณฑ์มาตรฐาน VBench-I2V

ในการเปรียบเทียบตัวชี้วัดการประเมินที่สำคัญ UniWorld-OSP2.0 แสดงความเหนือกว่าในด้านคุณภาพการเคลื่อนไหว ความเที่ยงตรงของภาพ และความสอดคล้องทางความหมาย โดยผลการทำงานโดยรวมได้ก้าวเข้าสู่กลุ่มแนวหน้าของฝ่ายโอเพนซอร์สอย่างมั่นคง

ควบคู่ไปกับการเปิดตัวเวอร์ชันใหม่ การพัฒนาระดับชุมชนก็รุดหน้าอย่างรวดเร็วเช่นกัน โครงการ Open-Sora Plan ได้รับดาวบน GitHub สะสมประมาณ 12,000 ดวง และมีดาวน์โหลดหลายสิบล้านครั้ง หลายครั้งที่ขึ้นแท่น Trending และในด้านความกระตือรือร้นของโค้ดจริงได้ก้าวเข้าสู่กลุ่มแนวหน้าของโมเดลวิดีโอโอเพนซอร์ส

ไบต์แดนซ์จับมือปักกิ่งโอเพ่นซอร์สโมเดลวิดีโอ Helios: 14B พารามิเตอร์ทำได้ 19.5 FPS ขึ้นแท่น Hugging Face!
โครงการโอเพนซอร์ส Open-Sora Plan ได้รับดาวบน GitHub เกิน 12,000 ดวงแล้ว

ฐานโมเดลใหญ่สร้างวิดีโอที่มีประสิทธิภาพสูง ต้นทุนต่ำ และควบคุมได้เองเช่นนี้ กำลังวิวัฒน์เป็นโครงสร้างพื้นฐานการสร้างวิดีโอที่สามารถนำกลับมาใช้ใหม่ได้ในภาคอุตสาหกรรมอย่างรวดเร็ว ขณะนี้มีหลายทีมรวมถึง ByteDance, Tencent WXG, Alibaba DAMO Academy, Xiaohongshu, Bilibili ฯลฯ ที่กำลังพัฒนาต่อยอดบนเฟรมเวิร์กนี้ และบริษัท AI หลายแห่งในต่างประเทศก็ติดตามมาเช่นกัน

ขณะที่ทีมประกาศว่าจะเปิดชุดข้อมูลสไตล์ 12 ประเภทและน้ำหนักโมเดลแบบเต็มเพิ่มเติม สาขาการสร้างวิดีโอกำลังจะเข้าสู่ “ช่วงเวลาของ LLaMA เวอร์ชันภาพ” ของตัวเอง คำถามที่ตามมาคือ: เฟรมเวิร์กทางเทคนิคที่กำลังวิวัฒน์อย่างต่อเนื่องในนิเวศวิทยาการสร้างวิดีโอโอเพนซอร์สนี้ ทำอะไรถูกต้องบ้าง?

ต่อไปเราจะตีความตามรายงานทางเทคนิคอย่างเป็นทางการของ UniWorld-OSP2.0

ที่อยู่รายงาน: https://github.com/PKU-YuanGroup/UniWorld/blob/main/UniWorld-OSP2.0/docs/Uniworld-OSP2.0.pdf

สถาปัตยกรรมโดยรวม: การทำงานร่วมกันอย่างราบรื่นของสามองค์ประกอบหลัก

ก่อนที่จะเจาะลึกถึงความก้าวหน้าทางเทคนิคเฉพาะของ UniWorld-OSP2.0 จำเป็นต้องแยกชิ้นส่วนสถาปัตยกรรมโดยรวมจากมุมมองมหภาคก่อน สิ่งนี้จะช่วยให้เราเข้าใจว่าโมเดลนี้รองรับกระบวนทัศน์แบบรวมศูนย์ “ทวิพื้นเมือง” และบรรลุการสร้างคุณภาพสูงได้อย่างไร

ไบต์แดนซ์จับมือปักกิ่งโอเพ่นซอร์สโมเดลวิดีโอ Helios: 14B พารามิเตอร์ทำได้ 19.5 FPS ขึ้นแท่น Hugging Face!
ภาพรวมสถาปัตยกรรม UniWorld-OSP2.0

ตามรายงานทางเทคนิค กรอบระบบของ UniWorld-OSP2.0 ในตรรกะพื้นฐานประกอบด้วยสามองค์ประกอบหลัก:

Causal VAE (Causal Variational Autoencoder): ในฐานะสะพานเชื่อมระหว่างพื้นที่พิกเซลวิดีโอและพื้นที่แฝง มีหน้าที่บีบอัดลำดับวิดีโอมิติสูงให้เป็นการแสดงแฝงที่กะทัดรัดและมีโครงสร้างเชิงเหตุผล เพื่อให้แน่ใจว่ามีประสิทธิภาพการประมวลผลที่สูงขึ้นในขณะที่รักษาความสัมพันธ์เชิงเหตุผลของเวลา
โมดูลเงื่อนไขหลายโหมดที่เสริมด้วย VLM: นี่คือศูนย์กลางการรับรู้ของสถาปัตยกรรมนี้ มันใช้ VLM (Visual-Language Model) ที่อยู่ในสถานะแช่แข็งเพื่อแยกคุณลักษณะหลายโมาตร จากนั้นจึงปรับและแมปคุณลักษณะเหล่านี้ผ่านโมดูล Adapter ที่สามารถฝึกได้ เพื่อให้คำแนะนำความหมายเชิงลึกสำหรับกระบวนการสร้างต่อไป
เครือข่ายหลัก Diffusion Transformer (DiT): ในฐานะเครื่องยนต์หลักของการสร้างวิดีโอ DiT รับคุณลักษณะความหมายที่ผ่านการประมวลโดย Adapter ข้างต้น และดำเนินการกำจัดสัญญาณรบกวนแบบมีเงื่อนไขในพื้นที่แฝงที่ VAE จัดหาให้ ในที่สุดจึงสังเคราะห์สตรีมวิดีโอที่มีความต่อเนื่องของเวลาสูง

สถาปัตยกรรม “VAE + VLM + DiT” นี้เป็นรากฐานของประสิทธิภาพอันทรงพลังของ UniWorld-OSP2.0 และยังวางรากฐานโครงสร้างระดับระบบสำหรับการปรับโมเดลให้เข้ากับพลังการคำนวณ Ascend อย่างลึกซึ้ง เพื่อบรรลุ “Ascend Native” ที่แท้จริง บนพื้นฐานความเข้าใจสถาปัตยกรรมโดยรวมนี้ เรามาดูกันว่าทีมวิจัยลงมือแก้ไขปัญหาคอขวดของอุตสาหกรรมอย่างแม่นยำในขั้นตอนการสร้างและทำความเข้าใจเฉพาะอย่างไร

หนึ่งในข้อได้เปรียบหลักทางเทคนิค: FlashI2V, เสาหลักแห่งความสอดคล้องทางกายภาพ

ความก้าวหน้าทางเทคนิคหลักประการแรกของ UniWorld-OSP2.0 ตกอยู่ที่ความสอดคล้องทางกายภาพของวิดีโออย่างแม่นยำ

เป็นเวลานานที่วิดีโอที่สร้างจาก I2V (ภาพสร้างวิดีโอ) มักมีปัญหาการเคลื่อนไหวแข็งทื่อหรือภาพเสียหาย สาเหตุหลักอยู่ที่การรั่วไหลของภาพเงื่อนไข (Conditional Image Leakage)

วิธีแก้ปัญหาการรั่วไหลของภาพเงื่อนไขอย่างสร้างสรรค์

โมเดลสร้างวิดีโอจากภาพ (I2V) แบบดั้งเดิม (เช่น SVD และตัวแปรรุ่นแรกๆ) มักจะต่อข้อมูลภาพเงื่อนไขแบบเต็มเข้ากับตัวแปรแฝงที่มีสัญญาณรบกวนโดยตรง และป้อนเข้าสู่ตัวกำจัดสัญญาณรบกวน แนวทางนี้ทำให้ตัวกำจัดสัญญาณรบกวนพึ่งพาภาพเงื่อนไขมากเกินไป มองว่ามันเป็น “ทางลัด” ในการสร้าง ซึ่งนำไปสู่ปัญหาการลดลงของประสิทธิภาพ เช่น การเคลื่อนไหวของวิดีโอที่สร้างมีแอมพลิจูดเล็กและโทนสีไม่สอดคล้องกัน เพื่อแก้ปัญหาการรั่วไหลของภาพเงื่อนไขที่พบได้ทั่วไปนี้ ทีมวิจัยได้เสนอกลไกหลัก FlashI2V

แผนภาพสถาปัตยกรรม FlashI2V: ตัวแปรแฝงของภาพเงื่อนไขผ่านการฉายและการเลื่อน เพื่อสร้างการแสดงระดับกลางที่เข้ารหัสโดยนัย ในขณะเดียวกัน คุณลักษณะแอมพลิจูดความถี่สูงที่สกัดจากภาพผ่านการแปลงฟูเรียร์จะถูกต่อเข้ากับตัวแปรแฝงที่มีสัญญาณรบกวน และป้อนเข้าสู่เครือข่ายหลัก DiT ร่วมกัน ในระหว่างการอนุมาน กระบวนการกำจัดสัญญาณรบกวนจะเริ่มจากสัญญาณรบกวนที่ถูกเลื่อน และดำเนินไปตามวิถีสมการเชิงอนุพันธ์สามัญ ในที่สุดจึงสร้างวิดีโอขึ้นใหม่

หัวใจของ FlashI2V อยู่ที่เทคโนโลยีหลักสองประการที่ทำงานร่วมกัน:

การเลื่อนพื้นที่แฝง: เทคโนโลยีนี้แก้ไขการกระจายตัวของการจับคู่โฟลว์ โดยผสานข้อมูลภาพเงื่อนไขเข้ากับกระบวนการแพร่กระจายโดยนัยแทนที่จะเป็นโดยชัดเจน โมดูลการฉายที่สามารถเรียนรู้ได้จะแปลงตัวแปรแฝงดั้งเดิมไปยังพื้นที่ที่อุดมด้วยโครงสร้างและคุณลักษณะความถี่สูง ซึ่งเทียบเท่ากับการแนะนำ “วาล์วระดับความเป็นอิสระของการเคลื่อนไหว” ให้กับลิงก์การแพร่กระจาย ลดการพึ่งพาภาพเงื่อนไขมากเกินไปจากรากฐาน บรรเทาปัญหาการรั่วไหลได้อย่างมีประสิทธิภาพ และรับประกันว่าวิดีโอที่สร้างขึ้นมีการเคลื่อนไหวแบบไดนามิกที่มีความเที่ยงตรงสูง
การชี้นำโดยฟูเรียร์: เพื่อชดเชยรายละเอียดความถี่สูง (เช่น ขอบและพื้นผิว) ที่อาจสูญเสียไปในระหว่างกระบวนการเลื่อนพื้นที่แฝง กลไกนี้จะเพิ่มประสิทธิภาพในระดับโดเมนความถี่ โดยนำคุณลักษณะแอมพลิจูดความถี่สูงที่ได้จากการแปลงฟูเรียร์ของภาพเงื่อนไข มาต่อกับพื้นที่แฝงที่มีสัญญาณรบกวนแล้วป้อนเข้าสู่โมเดล สิ่งนี้ไม่เพียงแต่ทำให้การคาดการณ์การเคลื่อนไหวมีเสถียรภาพในโดเมนความถี่และปรับเทียบรายละเอียด แต่ยังอนุญาตให้ควบคุมระดับรายละเอียดของวิดีโอที่สร้าง (เช่น ความชัดเจนของข้อความ พื้นผิวละเอียด) แบบละเอียดได้โดยการปรับเปอร์เซ็นไทล์ความถี่ตัด

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/24694

ไบต์แดนซ์จับมือปักกิ่งโอเพ่นซอร์สโมเดลวิดีโอ Helios: 14B พารามิเตอร์ทำได้ 19.5 FPS ขึ้นแท่น Hugging Face!

สถาปัตยกรรมโดยรวม: การทำงานร่วมกันอย่างราบรื่นของสามองค์ประกอบหลัก

หนึ่งในข้อได้เปรียบหลักทางเทคนิค: FlashI2V, เสาหลักแห่งความสอดคล้องทางกายภาพ

วิธีแก้ปัญหาการรั่วไหลของภาพเงื่อนไขอย่างสร้างสรรค์

相关推荐

เปิดเผยความลับของ OpenClaw: 5 ความจริงอันน่าทึ่งจากโปรเจกต์สุดสัปดาห์สู่ AI โอเพนซอร์สระดับปรากฏการณ์

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning