SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

1 day ago • ข่าวสารอุตสาหกรรม AI • 26 views

เมื่อเร็วๆ นี้ ผลงานวิจัยจาก MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง และทีมงานร่วม — “UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors” — ได้รับการยอมรับอย่างเป็นทางการให้ตีพิมพ์ใน SIGGRAPH 2026 ซึ่งเป็นการประชุมระดับสูงสุดด้านคอมพิวเตอร์กราฟิกส์

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

ที่อยู่บทความ: https://arxiv.org/pdf/2605.00658
คลังโค้ด: https://github.com/houyuanchen111/UniVidX
หน้าโครงการ: https://huggingface.co/houyuanchen/UniVidX

รูปที่ 1: รูปนี้แสดงความสามารถในการสร้างแบบจำลองแบบรวมของ UniVidX ในการสร้างวิดีโอแบบหลายรูปแบบ ครอบคลุมสามกระบวนทัศน์หลัก ได้แก่ Text→X, X→X และ Text&X→X ส่วนบนของรูปคือ UniVid-Intrinsic รองรับงานต่างๆ เช่น การเรนเดอร์ย้อนกลับ การปรับแสงใหม่ การสร้าง Intrinsic เป็นต้น ส่วนล่างคือ UniVid-Alpha ซึ่งเน้นที่การสร้าง RGBA การตัดวิดีโอ และการเติมเต็มวิดีโอ ผลลัพธ์แสดงให้เห็นว่าเฟรมเวิร์กเดียวสามารถทำงานวิดีโอกราฟิกที่ซับซ้อนซึ่งเดิมต้องใช้โมเดลอิสระหลายตัวได้

งานวิจัยนี้นำเสนอเฟรมเวิร์กแบบรวม UniVidX สำหรับการสร้างและทำความเข้าใจวิดีโอแบบหลายรูปแบบ ซึ่งบรรลุประสิทธิภาพที่ดีที่สุดในปัจจุบันหรือประสบความสำเร็จในการก้าวข้ามขีดจำกัดในงานวิดีโอกราฟิกหลายรายการ ถือเป็นก้าวสำคัญของโมเดลการแพร่กระจายวิดีโอในทิศทางของการทำให้เป็นสากล

รูปที่ 2: รูปนี้แสดงโครงสร้างหลักของ UniVidX ซึ่งรวมถึงกลไกการปิดบังเงื่อนไขแบบสุ่ม การแยก LoRA แบบเกต และการใส่ใจตนเองข้ามรูปแบบ ในระหว่างการฝึก รูปแบบต่างๆ จะถูกแบ่งออกเป็นเงื่อนไขหรือเป้าหมายแบบไดนามิก ทำให้โมเดลมีความสามารถในการสร้างแบบรอบทิศทาง ด้วยกลไกการใส่ใจร่วมกันและการปรับพารามิเตอร์แบบโมดูลาร์ โมเดลจึงรักษาความสอดคล้องกันในขณะที่หลีกเลี่ยงการรบกวนระหว่างรูปแบบต่างๆ

เป็นเวลานานที่การพัฒนาด้านวิดีโอกราฟิกและการสร้างวิดีโอมีลักษณะการแยกส่วนของงานอย่างชัดเจน ปัญหาต่างๆ มักต้องพึ่งพาโมเดลอิสระในการสร้างแบบจำลอง เช่น การเรนเดอร์ย้อนกลับวิดีโอ การปรับแสงวิดีโอใหม่ การตัดวิดีโอ การเติมเต็มวิดีโอ และการสร้างวิดีโอจากข้อความ ซึ่งโดยปกติแล้วต้องฝึกโมเดลเฉพาะสำหรับแต่ละงาน

วิธีการสร้างแบบจำลองที่เน้นการแมปอินพุต-เอาต์พุตแบบตายตัวนี้ ไม่เพียงแต่จำกัดความสามารถของโมเดลในการปรับตัวให้เข้ากับสถานการณ์จริงที่ซับซ้อน แต่ยังขัดขวางการแบ่งปันและการถ่ายโอนความรู้ข้ามงานอีกด้วย ในการใช้งานจริง เนื้อหาวิดีโอมักเกี่ยวข้องกับการรวมกันของหลายรูปแบบและการดำเนินการหลายอย่าง ทำให้วิธีการดั้งเดิมยากที่จะให้โซลูชันที่รวมเป็นหนึ่งเดียวและมีประสิทธิภาพ

รูปที่ 3: รูปนี้เปรียบเทียบประสิทธิภาพของ UniVid-Intrinsic กับวิธีการที่มีอยู่ในงานสร้าง Intrinsic เมื่อเทียบกับปัญหาการไม่ตรงกันของรูปแบบและการขาดรายละเอียดในวิธีการพื้นฐาน UniVidX รักษาความสอดคล้องที่สูงขึ้นระหว่าง RGB ค่าการสะท้อนแสง และค่าปกติ ผลลัพธ์แสดงให้เห็นว่าวิธีนี้สามารถสร้างลำดับวิดีโอแบบหลายรูปแบบที่มีความสอดคล้องทางกายภาพได้อย่างเสถียร

เพื่อแก้ปัญหานี้ UniVidX ได้ทำการปรับโครงสร้างกระบวนทัศน์การสร้างแบบจำลองอย่างเป็นระบบ แนวคิดหลักของเฟรมเวิร์กนี้คือการรวมงานวิดีโอกราฟิกต่างๆ เข้าเป็นปัญหาการสร้างแบบมีเงื่อนไขหลายรูปแบบ ทำให้รูปแบบใดๆ ก็สามารถเป็นได้ทั้งเงื่อนไขอินพุตและเป้าหมายการสร้าง ทำให้เกิดความสามารถในการสร้างแบบจำลองแบบรวม “จากรูปแบบใดๆ ไปยังรูปแบบใดๆ” ในพื้นที่รวมนี้ ข้อมูลต่างๆ เช่น วิดีโอ RGB ค่าปกติ ค่าการสะท้อนแสง แสง ช่อง Alpha และพื้นหน้า/พื้นหลัง จะไม่แยกจากกันอีกต่อไป แต่ถูกสร้างแบบจำลองร่วมกันผ่านกลไกการสร้างที่ใช้ร่วมกัน

รูปที่ 4: รูปนี้แสดงผลการประเมินเชิงปริมาณของ UniVidX ในงานสร้าง Intrinsic และ RGBA ไม่ว่าจะเป็นคะแนนผู้ใช้หรือตัวชี้วัดความสอดคล้องของเวลา UniVidX มีประสิทธิภาพดีกว่าวิธีการที่มีอยู่ สิ่งที่น่าสนใจคือ วิธีนี้สามารถสร้างการแยกย่อยหลายชั้นได้ ซึ่งสะท้อนถึงความสามารถในการสร้างแบบจำลองแบบรวมที่แข็งแกร่งยิ่งขึ้น

เพื่อให้บรรลุความสามารถแบบรวมนี้ UniVidX ได้นำเสนอการออกแบบที่สำคัญหลายประการในโครงสร้างโมเดลและกลไกการฝึก

ประการแรก ผ่านกลไกการปิดบังเงื่อนไขแบบสุ่ม โมเดลจะเปลี่ยนวิธีการแบ่งรูปแบบอินพุตและเอาต์พุตอย่างต่อเนื่องระหว่างการฝึก ทำให้เรียนรู้ความสัมพันธ์การสร้างในทุกทิศทาง แทนที่จะเป็นรูปแบบการแมปแบบตายตัว กลไกนี้ทำให้โมเดลมีความสามารถในการสรุปทั่วไปที่แข็งแกร่งขึ้น ทำให้สามารถปรับให้เข้ากับความต้องการงานที่หลากหลาย

ประการที่สอง ผ่านการแยก LoRA แบบเกต โมเดลจะจัดสรรพื้นที่พารามิเตอร์อิสระสำหรับรูปแบบต่างๆ และเปิดใช้งานแบบไดนามิกเมื่อรูปแบบที่เกี่ยวข้องเป็นเป้าหมายการสร้าง ซึ่งช่วยหลีกเลี่ยงการรบกวนพารามิเตอร์ระหว่างรูปแบบต่างๆ ได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาความสามารถในการสร้างดั้งเดิมของโมเดลการแพร่กระจายที่ผ่านการฝึกไว้ล่วงหน้า

นอกจากนี้ กลไกการใส่ใจตนเองข้ามรูปแบบยังใช้การแบ่งปันข้อมูลระหว่างรูปแบบต่างๆ เพื่อให้เกิดข้อจำกัดแบบรวมในระดับเรขาคณิต แสง และความหมาย ซึ่งช่วยเพิ่มความสอดคล้องและความเสถียรของผลลัพธ์การสร้างได้อย่างมีนัยสำคัญ

รูปที่ 5: ตารางนี้เปรียบเทียบประสิทธิภาพของ UniVid-Intrinsic กับวิธีการที่เป็นตัวแทนหลายวิธีในงานค่าการสะท้อนแสง แสง ค่าปกติ และการเรนเดอร์ไปข้างหน้าอย่างเป็นระบบ UniVidX มีประสิทธิภาพโดยรวมดีกว่าในตัวชี้วัด เช่น PSNR, SSIM และ LPIPS ผลลัพธ์ยืนยันข้อได้เปรียบโดยรวมของเฟรมเวิร์กแบบรวมในสถานการณ์หลายงาน

ในการนำไปใช้จริง ทีมวิจัยได้สร้างโมเดลตัวแทนสองตัวตามเฟรมเวิร์กนี้เพื่อครอบคลุมงานวิดีโอกราฟิกประเภทต่างๆ UniVid-Intrinsic เน้นที่คุณสมบัติ Intrinsic สามารถจัดการรูปแบบต่างๆ เช่น RGB ค่าการสะท้อนแสง การแผ่รังสี และค่าปกติได้อย่างรวมเป็นหนึ่ง รองรับงานต่างๆ เช่น การสร้าง Intrinsic จากข้อความ การเรนเดอร์ย้อนกลับวิดีโอ การเรนเดอร์ไปข้างหน้า และการปรับแสงวิดีโอใหม่

ในขณะเดียวกัน UniVid-Alpha มุ่งเน้นไปที่การแยกย่อยและการสังเคราะห์ในระดับวิดีโอ โดยสร้างแบบจำลองวิดีโอผสม พื้นหน้า พื้นหลัง และช่อง Alpha อย่างรวมเป็นหนึ่ง รองรับการใช้งานที่สำคัญ เช่น การตัดวิดีโอ การเติมเต็มวิดีโอ และการแทนที่พื้นหน้าและพื้นหลัง โมเดลทั้งสองนี้รองรับกระบวนทัศน์การสร้างสามแบบ ได้แก่ Text→X, X→X และ Text&X→X ภายใต้เฟรมเวิร์กแบบรวม ครอบคลุมงานวิดีโอทั่วไปสิบห้าประเภท ซึ่งยืนยันถึงความสามารถในการนำไปใช้อย่างกว้างขวางของวิธีนี้

รูปที่ 6: รูปนี้แสดงผลภาพของวิธีการต่างๆ ในงานเรนเดอร์ย้อนกลับและเรนเดอร์ไปข้างหน้า เมื่อเทียบกับปัญหาสิ่งแปลกปลอมและการสูญเสียรายละเอียดในวิธีการอื่น ผลลัพธ์การสร้างของ UniVidX ใกล้เคียงกับการกระจายจริงมากขึ้น โดยเฉพาะอย่างยิ่งในด้านความสอดคล้องของแสงและรายละเอียดเรขาคณิต แสดงให้เห็นถึงความเสถียรและความแม่นยำที่สูงขึ้น

สิ่งที่น่าสนใจคือ UniVidX แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในด้านประสิทธิภาพของข้อมูล ผลการทดลองแสดงให้เห็นว่า แม้จะมีข้อมูลการฝึกน้อยกว่าหนึ่งพันวิดีโอ โมเดลก็ยังสามารถบรรลุหรือเหนือกว่าวิธีการที่ดีที่สุดที่มีอยู่ในหลายงาน และรักษาความสามารถในการสรุปทั่วไปที่ดีในสถานการณ์จริงและข้อมูลนอกการกระจาย ปรากฏการณ์นี้บ่งชี้ว่าวิธีนี้ไม่ได้พึ่งพาการเรียนรู้จากข้อมูลงานขนาดใหญ่ แต่ใช้การออกแบบโครงสร้างและกลยุทธ์การฝึกที่เหมาะสม เพื่อกระตุ้นและใช้ประโยชน์จากความรู้ล่วงหน้าเกี่ยวกับโลกที่มีพลวัตซึ่งฝังอยู่ในโมเดลการแพร่กระจายวิดีโอที่ผ่านการฝึกไว้ล่วงหน้า

รูปที่ 7: ตารางนี้แสดงประสิทธิภาพการประมาณค่าการสะท้อนแสงของ UniVidX บนชุดข้อมูล MAW ในโลกจริง แม้จะฝึกเฉพาะกับข้อมูลสังเคราะห์ โมเดลก็ยังได้ตัวชี้วัดความคลาดเคลื่อนของความเข้มที่ดีที่สุด และรักษาความสามารถในการแข่งขันในความคลาดเคลื่อนของสี ผลลัพธ์แสดงให้เห็นว่าวิธีนี้มีความสามารถในการสรุปทั่วไปข้ามโดเมนที่ดี

ในการประเมินระบบ UniVidX มีประสิทธิภาพนำในงานสำคัญหลายงาน ในงานเรนเดอร์ย้อนกลับและเรนเดอร์ไปข้างหน้า โมเดลมีประสิทธิภาพโดยรวมดีกว่าวิธีการโมเดลการแพร่กระจายที่มีอยู่ใน PSNR, SSIM และตัวชี้วัดการรับรู้ ในงานประมาณค่าปกติ แม้จะลดขนาดข้อมูลการฝึกอย่างมีนัยสำคัญ ก็ยังมีประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลเฉพาะ ในงานตัดวิดีโอ ในฐานะโมเดลที่ไม่ต้องการข้อมูลเสริมเพิ่มเติม ผลลัพธ์เกินกว่าวิธีการหลายวิธีที่ต้องใช้อินพุต mask ในขณะเดียวกัน ในงานสร้างที่ขับเคลื่อนด้วยข้อความ โมเดลได้รับการประเมินที่สูงขึ้นในด้านคุณภาพภาพ ความสอดคล้องทางความหมาย และความสอดคล้องข้ามรูปแบบ และมีความสอดคล้องของเวลาที่ดีกว่าวิธีการระดับภาพอย่างมีนัยสำคัญ

รูปที่ 8: ตารางนี้เปรียบเทียบประสิทธิภาพของ UniVidX กับวิธีการประมาณค่าปกติเฉพาะหลายวิธี แม้จะมีขนาดข้อมูลการฝึกที่เล็กกว่าอย่างมีนัยสำคัญ UniVidX ก็ยังมีความแม่นยำใกล้เคียงหรือดีกว่าบางโมเดลเฉพาะ ผลลัพธ์นี้สะท้อนถึงข้อได้เปรียบด้านประสิทธิภาพข้อมูลสูงที่เกิดจากการสร้างแบบจำลองแบบรวมโดยใช้ความรู้ล่วงหน้าจากการแพร่กระจาย

จากมุมมองที่สูงขึ้น คุณค่าของ UniVidX ไม่ได้อยู่แค่การปรับปรุงประสิทธิภาพของงานเดี่ยวเท่านั้น แต่ยังอยู่ที่การรวมและขยายความสามารถของระบบ เนื่องจากทุกรูปแบบใช้เฟรมเวิร์กการสร้างร่วมกัน งานต่างๆ จึงสามารถรวมกันได้อย่างยืดหยุ่นภายในโมเดลเดียวกัน ซึ่งสนับสนุนกระบวนการแก้ไขและสร้างเนื้อหาวิดีโอที่ซับซ้อนยิ่งขึ้น

ตัวอย่างเช่น สามารถทำการเรนเดอร์ย้อนกลับวิดีโอก่อนเพื่อรับคุณสมบัติทางกายภาพ จากนั้นปรับแสงใหม่หรือแก้ไขวัสดุตามข้อความ หรือทำการเติมเต็มวิดีโอและแทนที่พื้นหลังผ่านการแยกย่อย Alpha ความสามารถในการรวมหลายรูปแบบนี้ทำให้ UniVidX ขยายจากโมเดลเดียวเป็นเอนจิ้นวิดีโอกราฟิกแบบรวมสำหรับการใช้งานที่ซับซ้อน

รูปที่ 9: ตารางนี้แสดงประสิทธิภาพเชิงปริมาณของ UniVid-Alpha ในงานตัดวิดีโอ ในฐานะวิธีการที่ไม่ต้องใช้อินพุต mask เสริม UniVidX มีประสิทธิภาพดีกว่าวิธีการที่มีอยู่หลายวิธีในตัวชี้วัดสำคัญ เช่น MAD และ MSE ผลลัพธ์แสดงให้เห็นว่าความรู้ล่วงหน้าจากโมเดลการแพร่กระจายสามารถแทนที่สัญญาณการแบ่งส่วนแบบดั้งเดิมได้อย่างมีประสิทธิภาพ

การนำเสนอ UniVidX ถือเป็นจุดเปลี่ยนที่โมเดลการแพร่กระจายวิดีโอกำลังพัฒนาจากเครื่องมือสำหรับงานเดี่ยวไปเป็นโมเดลพื้นฐานวิดีโอกราฟิกทั่วไป งานนี้ยืนยันทิศทางสำคัญ: ภายใต้เงื่อนไขของการมีความรู้ล่วงหน้าที่ผ่านการฝึกอย่างแข็งแกร่ง ด้วยกลไกการสร้างแบบจำลองหลายรูปแบบที่เหมาะสม งานดั้งเดิมในกราฟิกส์ เช่น การแยกย่อย การประมาณค่า การสร้าง และการแก้ไข สามารถรวมเข้าด้วยกันในเฟรมเวิร์กเดียวกัน ความก้าวหน้านี้ไม่เพียงแต่เปิดเส้นทางเทคโนโลยีใหม่สำหรับการสร้างและทำความเข้าใจวิดีโอ แต่ยังวางรากฐานการปฏิบัติที่มั่นคงสำหรับสถานการณ์การใช้งาน เช่น การจำลองยานยนต์อัตโนมัติ ปัญญาประดิษฐ์ที่มีกายภาพ และการผลิตภาพยนตร์

แนะนำผู้เขียน

ผู้เขียนหลักของบทความนี้คือ Chen Houyuan นักศึกษาปริญญาตรีจากมหาวิทยาลัยหนานจิง ซึ่งกำลังจะเข้าร่วม MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกงเพื่อดำเนินการวิจัย ผู้เขียนที่ติดต่อได้คือ Rao Anyi อาจารย์จาก MMLab มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง ที่น่าสนใจคือ Lvmin Zhang นักศึกษาปริญญาเอกจากมหาวิทยาลัยสแตนฟอร์ดก็เป็นหนึ่งในผู้เขียนบทความนี้เช่นกัน เขาเคยร่วมงานกับ Rao Anyi ในการสร้างผลงานที่เป็นตัวแทน เช่น ControlNet และ IC-Light โดย ControlNet เคยได้รับรางวัล ICCV Marr Prize นอกจากนี้ อาจารย์ Zhao Hao จากมหาวิทยาลัยชิงหัวยังให้คำแนะนำที่สำคัญสำหรับงานนี้ ซึ่งร่วมกันผลักดันให้โครงการสำเร็จลุล่วง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34211

Like (0)

0 0

นักศึกษาปริญญาเอก MIT ลาออก: ลงทุน 1 หมื่นล้านดอลลาร์, 5 หมื่น H100, สร้างมนุษย์ดิจิทัลภายใน 10 ปี

Previous 1 day ago

การประเมิน AI Agent เข้าสู่ครึ่งหลัง: จาก “การดูคำตอบ” สู่ “การดูการกระทำ” Claw-Eval จะป้องกันระบบไม่ให้ผ่อนปรนได้อย่างไร?

Next 1 day ago

ข่าวสารอุตสาหกรรม AI

ยุคเอเจนต์จุดระเบิดตลาดหมื่นล้าน: โทเคนกลายเป็นสินค้าบริโภคหลักของโครงสร้างพื้นฐาน AI ใหม่ได้อย่างไร?

ยุคเอเจนต์จุดชนวนตลาดล้านล้านล้าน: โทเค็นกลายเป็นสินค้าบริโภคพื้นฐานใหม่ของโครงสร้างพื้นฐาน AI ได้อย่างไร? กุมภาพันธ์ 2026 อุตสาหกรรม AI ของจีนประสบการระเบิดครั้งสำคัญ: หุ้นของ Zhi…

2026年2月26日
385000
ข่าวสารอุตสาหกรรม AI

ซัคเคอร์เบิร์กพลาดโอกาส DeepMind: ความเย็นชาด้านความปลอดภัย AI และความสนใจที่หลากหลายทำให้ Google ได้ไปในราคา 650 ล้านดอลลาร์

เซบาสเตียน มัลลาบี นักข่าวชื่อดัง เปิดเผยเรื่องราวในอดีตที่มาร์ก ซักเคอร์เบิร์กพลาดโอกาสได้ครอบครอง DeepMind ในหนังสือเล่มใหม่ของเขาชื่อ “The Infinite Machine: Demis Hassabis…

2026年4月5日
159000
ข่าวสารอุตสาหกรรม AI

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

โมเดลภาษาขนาดใหญ่ที่ทรงพลังที่สุด ได้นำการปรับขนาด (scaling) ไปสู่มิติใหม่: บริบทระดับล้านโทเค็น ไม่กี่วันก่อน Claude Opus 4.6 เปิดตัว ทำให้ผู้คนได้สัมผัสถึงความสามารถที่เกิดขึ้นจร…

2026年2月11日
249000
ข่าวสารอุตสาหกรรม AI

DeepSeek-V4 เวอร์ชันพรีวิวเปิดตัวแล้ว: บริบทระดับล้านและสถาปัตยกรรมความสนใจแบบผสมผสาน นำทางนวัตกรรมใหม่ด้วยโอเพนซอร์ส

ในที่สุด หลังจากที่วงการ AI ทั่วโลกรอคอยมาหลายเดือน DeepSeek V4 ก็มาถึงแล้ว! เช้าวันนี้ เอกสาร API ของ DeepSeek ได้ถูกอัปโหลด ทำให้เราได้เห็น “หน้าตาที่แท้จริง” ของเวอร…

2026年4月24日
85000
การทดสอบจริงของคอมไพเลอร์ Luminal ล้มเหลว? การอนุมาน fp32 ด้อยกว่า vLLM มาก ยังไม่มีการผสาน FlashAttention

เราได้เผยแพร่บทความเกี่ยวกับ Mega Kernel หลายครั้งก่อนหน้านี้ วันนี้เราจะมาสำรวจบทความนี้: 《ไม่ต้องสร้าง MegaKernels ด้วยมือ! Luminal คอมไพล์สร้าง MegaKernels: แก้ปัญหา GPU SM โหลด…

ข่าวสารอุตสาหกรรม AI 2026年4月27日
77000

SIGGRAPH 2026 รับแล้ว! กรอบงาน UniVidX แบบครบวงจรสร้างความก้าวหน้าใหม่ในการสร้างวิดีโอหลายรูปแบบ

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ยุคเอเจนต์จุดระเบิดตลาดหมื่นล้าน: โทเคนกลายเป็นสินค้าบริโภคหลักของโครงสร้างพื้นฐาน AI ใหม่ได้อย่างไร?

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

การทดสอบจริงของคอมไพเลอร์ Luminal ล้มเหลว? การอนุมาน fp32 ด้อยกว่า vLLM มาก ยังไม่มีการผสาน FlashAttention