เผยแพร่เอกสารทางเทคนิค Seedance 2.0 ของไบต์แดนซ์ เปิดให้บริการทั่วโลกแต่ไม่รวมสหรัฐอเมริกา
เอกสารวิจัยเกี่ยวกับเทคโนโลยีสร้างวิดีโอ AI ระดับปรากฏการณ์ Seedance 2.0 ของไบต์แดนซ์ ได้รับการเผยแพร่สู่สาธารณะบนแพลตฟอร์ม arXiv แล้ว

เอกสารประกอบด้วยผลการทดสอบมาตรฐาน (Benchmark) ยาว 26 หน้า และรายชื่อผู้มีส่วนร่วมครบถ้วน
ทีมงานได้เปิดเผยรายชื่อสมาชิกทั้งหมด 170 คน แสดงให้เห็นถึงการให้เครดิตและความเคารพต่อผลงานวิจัยอย่างเต็มที่

การเผยแพร่เอกสารวิจัยเกิดขึ้นในเวลาเดียวกับที่ Seedance 2.0 เปิดให้ลูกค้าธุรกิจทั่วโลกใช้งานผ่านแพลตฟอร์ม Byteplus ลูกค้าในกว่า 100 ประเทศทั่วโลกสามารถเรียกใช้บริการนี้ผ่าน API แบบชำระเงินล่วงหน้าได้โดยตรง โมเดลนี้รองรับการป้อนข้อมูลหลายรูปแบบ ได้แก่ ข้อความ ภาพ วิดีโอ และเสียง สามารถสร้างวิดีโอ MP4 ความยาว 4 ถึง 15 วินาที ด้วยความละเอียดสูงสุด 720p
สิ่งที่น่าสังเกตคือ รายชื่อประเทศ “ทั่วโลก” ที่เปิดให้บริการในครั้งนี้ ไม่รวมสหรัฐอเมริกา

ความก้าวหน้าหลัก: แก้ไขจุดอ่อนในการสร้างฉากที่ซับซ้อน
ชื่อบทความวิจัยชี้ไปที่เป้าหมายหลัก: ทำให้ AI สร้างวิดีโอสามารถรับมือกับฉากที่ซับซ้อนในโลกแห่งความเป็นจริงได้ Seedance 2.0 มุ่งหมายที่จะก้าวข้ามข้อจำกัดหลักของเครื่องมือสร้างวิดีโอในอดีต: โดยทั่วไปโมเดลดั้งเดิมมักอาศัยการป้อนข้อมูลข้อความเพียงอย่างเดียว ทำให้ยากที่จะรักษาความสม่ำเสมอเมื่ออ้างอิงถึงเนื้อหาจริง (เช่น ภาพแบรนด์ เสียงพากย์ คลิปวิดีโอที่มีอยู่) และต้องใช้การทดลองซ้ำๆ จำนวนมากเพื่อสร้างเนื้อหาที่ใช้งานได้ ส่งผลให้ผู้สร้างต้องเผชิญกับปัญหาการทำซ้ำช้า ผลลัพธ์ไม่สม่ำเสมอ และขั้นตอนการทำงานไม่ตอบโจทย์ความต้องการการผลิตจริง
ความก้าวหน้าอยู่ที่การใช้โครงสร้างโมเดลแบบรวมที่เป็นเอกภาพตั้งแต่แรกเริ่ม ซึ่งสามารถสร้างวิดีโอและเสียงไปพร้อมกันได้ และสามารถรับและประมวลผลข้อมูลป้อนเข้าได้สี่รูปแบบในระบบเดียว ได้แก่ ข้อความ ภาพ เสียง และวิดีโอ ลักษณะทางเทคนิคเฉพาะ ได้แก่:
- ความเข้าใจหลายรูปแบบแบบรวม: สามารถเข้าใจและผสานคำสั่งจากข้อความ ภาพ วิดีโอ และเสียงได้พร้อมกัน
- การสร้างการเคลื่อนไหวตามธรรมชาติ: การเคลื่อนไหวของบุคคลที่สร้างขึ้น เช่น การเดิน วิ่ง ต่อสู้ เต้นรำ ดูเป็นธรรมชาติมากขึ้น สอดคล้องกับกฎทางฟิสิกส์ และฉากที่มีการโต้ตอบของหลายคนก็สามารถนำเสนอได้อย่างเป็นระเบียบ
- การประสานเสียงและภาพ: พร้อมด้วยเสียงสเตอริโอแบบ binaural ซึ่งรับประกันการประสานกันอย่างแม่นยำระหว่างการพูด ร้องเพลง เสียงฝีเท้า ดนตรีประกอบกับภาพ และการขยับปากที่ตรงกัน
- ความสามารถในการกำกับอัตโนมัติ: ป้อนคำอธิบายเนื้อเรื่อง สามารถออกแบบช็อต การเคลื่อนกล้อง และควบคุมจังหวะการตัดต่อได้โดยอัตโนมัติ
- การแก้ไขอย่างละเอียด: รองรับการแก้ไขบุคคล การกระทำ หรือฉากที่ระบุ และสามารถถ่ายต่อจากวิดีโอที่มีอยู่ได้อย่างต่อเนื่อง
ในส่วนการประเมินผล ทีมวิจัยได้ทำการเปรียบเทียบเชิงปริมาณอย่างครอบคลุมในหลายมิติ เช่น คุณภาพ การเคลื่อนไหว ความสอดคล้องทางความหมาย บนเกณฑ์มาตรฐานหลักหลายแห่งรวมถึง VBench ผลลัพธ์แสดงให้เห็นว่า Seedance 2.0 อยู่ในกลุ่มแนวหน้า โดยมีตัวชี้วัดหลายตัวนำหน้าโมเดลอื่นๆ ในช่วงเวลาเดียวกันอย่างมาก

สองหน้าสุดท้ายของเอกสารวิจัยระบุรายชื่อผู้เขียนทั้งหมด 170 คน เมื่อเทียบกับทีม 197 คนในยุค Seedance 1.5 Pro มี 89 คนที่ออกไป และมี 62 คนที่เข้ามาใหม่ แสดงให้เห็นการเปลี่ยนแปลงทีมงานเกือบครึ่งในเวลาไม่ถึงครึ่งปี

สมาชิกหลักที่ยังคงอยู่ในทีมอย่างมั่นคง ได้แก่:
* Wu Yonghui (อู๋ หย่งฮุ่ย): ปัจจุบันเป็นหัวหน้าฝ่ายวิจัยพื้นฐานของทีม Seed ไบต์แดนซ์ เป็นผู้ตัดสินใจทางเทคนิคสูงสุดสำหรับโมเดลสร้างวิดีโอซีรีส์ Seedance รายงานตรงต่อ Liang Rubo (เหลียง หยู่ปั๋ว) CEO ของบริษัท
* Zeng Yan (เจิง เหยียน): ปัจจุบันเป็นหัวหน้าฝ่ายฝึกอบรมล่วงหน้า (Pre-training) ของ Seedance 2.0 เป็นผู้ดำเนินการสำคัญของแนวทางเทคโนโลยีหลักของโมเดลสร้างวิดีโอ สถานที่ทำงานอยู่ที่ Palo Alto สหรัฐอเมริกา

ข่าวลือเกี่ยวกับทีมงานและการเปิดเผยโครงสร้างเงินเดือน
ก่อนหน้านี้มีข่าวลือว่าไบต์แดนซ์เสนอเงินเดือนเกือบ 100 ล้านหยวนเพื่อดึงตัวอดีตนักวิจัยของ DeepSeek มา Li Liang (หลี่ เหลียง) รองประธาน Douyin ได้ออกมาปฏิเสธข่าวนี้ด้วยตนเอง โดยระบุว่าข่าวดังกล่าวไม่เป็นความจริง และชี้ให้เห็นว่าระบบเงินเดือนของทีม Seed เป็นระบบเดียวกัน และไม่ได้มีการจ้างพนักงานด้วยเงินเดือนเกือบ 100 ล้านหยวนในระยะล่าสุด
การปฏิเสธข่าวลือครั้งนี้ยังเปิดเผยโครงสร้างเงินเดือนครบถ้วนของทีม Seed โดยไม่คาดคิด: ประกอบด้วยเงินสด ตัวเลือกหุ้นของไบต์แดนซ์ และตัวเลือกหุ้น Doubao (เต้าหม้อ) โดยตัวเลือกหุ้นทั้งหมดจะได้รับสิทธิ์ครอบครองภายในสี่ปี
Li Liang (หลี่ เหลียง) ได้เสริมหลังจากปฏิเสธข่าวลือว่า: “ผลตอบแทนในอนาคตจากตัวเลือกหุ้นไบต์แดนซ์และเต้าหม้อของพนักงาน Seed มีความผันผวนตามราคาตัวเลือกหุ้น หากธุรกิจเติบโตได้ดี ก็ไม่สามารถปฏิเสธได้ว่าบางพนักงานเทคนิคของ Seed อาจได้รับผลตอบแทนหลายร้อยล้านหยวนหลังจากสี่ปี” คำพูดนี้ถูกตีความจากภายนอกว่าเป็นการใช้โอกาสปฏิเสธข่าวลือเพื่อสรรหาบุคลากร
ที่อยู่บทความวิจัย:
https://arxiv.org/abs/2604.14148
ลิงก์อ้างอิง:
[1]https://www.byteplus.com/en/activity/seedance2-0
[2]https://weibo.com/7965906915/QB6lMCaGo

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30723
