อดีตผู้บริหาร Tesla เปิดตัวผลงานแรกหลังออกมาทำธุรกิจ: โมเดล DiT4DiT ให้หุ่นยนต์เรียนรู้การเคลื่อนไหวจากวิดีโอ เป็นครั้งแรกที่ World Model ถูกนำไปใช้กับหุ่นยนต์ฮิวแมนนอยด์
หลังจากออกจากทีม Optimus ของ Tesla เพื่อมาทำธุรกิจเองกว่า 1 ปี Yang Shuo ได้เปิดเผยผลงานวิจัยของเขาเป็นครั้งแรก
ในฐานะผู้ร่วมก่อตั้งและ CTO ของ Mondo Robotics Yang Shuo และทีมงานของเขาได้ทุ่มเทเวลาตลอดปีที่ผ่านมาเพื่อศึกษาปัญหาหลักหนึ่ง: จะใช้ข้อมูลวิดีโอฝึกหุ่นยนต์อย่างไร ให้สามารถเรียนรู้ด้วยข้อมูลที่น้อยลง เพื่อให้ได้การควบคุมการเคลื่อนไหวที่มีประสิทธิภาพสูงและสามารถปรับใช้ได้ทั่วไป แก้ไขข้อบกพร่องของโมเดล Vision-Language-Action (VLA) ที่มีอยู่ในปัจจุบันในการทำความเข้าใจโลกทางกายภาพ
เมื่อเร็วๆ นี้ ทีมงานได้เผยแพร่บทความวิจัยชื่อ “DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control” ซึ่งแนะนำโซลูชันของพวกเขาอย่างเป็นทางการ นั่นคือโมเดลอัจฉริยะชื่อ DiT4DiT

หัวใจของ DiT4DiT อยู่ที่การสร้างโมเดลร่วมระหว่างไดนามิกของวิดีโอและการกระทำของหุ่นยนต์ โดยใช้ฟังก์ชันวัตถุประสงค์เฉพาะ เพื่อฝึกฝนแบบ end-to-end ตั้งแต่วิดีโอไปจนถึงคำสั่งควบคุม กล่าวกันว่านี่เป็นครั้งแรกที่ World Model ถูกนำไปใช้ได้สำเร็จบนแพลตฟอร์มหุ่นยนต์ฮิวแมนนอยด์

(แผนภาพ: แผนผังโครงสร้างโมเดล DiT4DiT)
DiT4DiT คืออะไร?
พูดง่ายๆ DiT4DiT เป็นเฟรมเวิร์กการเรียนรู้สำหรับหุ่นยนต์แบบ end-to-end ที่ผสานโมเดล Diffusion สำหรับวิดีโอ และโมเดล Diffusion สำหรับการกระทำ เข้าด้วยกันในสถาปัตยกรรมแบบ Cascade การวิจัยนี้มีสองการออกแบบหลัก: Intermediate Denoising และThree Timestep Scheme
การออกแบบหลักที่หนึ่ง: Intermediate Denoising
วิธีการดั้งเดิมมักต้องการให้โมเดลวิดีโอสร้างวิดีโอฉากในอนาคตที่สมบูรณ์ก่อน จากนั้นหุ่นยนต์จึงคาดการณ์การกระทำตามนั้น DiT4DiT ใช้กลยุทธ์ “Intermediate Denoising”: ในระหว่างที่โมเดลสร้างวิดีโอ “ลดสัญญาณรบกวน” เพื่อสร้างภาพอนาคต จะดึงคุณลักษณะการเคลื่อนไหวที่สำคัญออกมา และใช้คุณลักษณะเหล่านั้นเพื่อชี้นำการสร้างการกระทำทันที
ยกตัวอย่างงานในชีวิตประจำวัน “วางแก้วลงในลิ้นชัก”:
* วิธีดั้งเดิม: หุ่นยนต์ต้องรอให้สมอง “จินตนาการ” ภาพสมบูรณ์ของ “แก้วถูกวางลงในลิ้นชัก” ก่อน แล้วจึงวางแผนการเคลื่อนไหว
* Intermediate Denoising: เมื่อหุ่นยนต์เพิ่ง “จินตนาการ” ถึงขั้นตอนสำคัญ “แก้วเคลื่อนที่ไปเหนือลิ้นชัก” ก็จะดึงข้อมูลนี้ และอนุมานการกระทำ “ยื่นมือและเคลื่อนย้าย” โดยตรง โดยไม่ต้องรอให้ภาพทั้งหมดเสร็จสมบูรณ์

(แผนภาพ: การเปรียบเทียบกลไก Intermediate Denoising กับวิธีดั้งเดิม)
กระบวนการเฉพาะแบ่งออกเป็นสามขั้นตอน:
1. Video Denoising: โมเดลวิดีโอเริ่มประมวลผลภาพเริ่มต้น ค่อยๆ ลดสัญญาณรบกวน เพื่อสร้างเฟรมอนาคตที่ชัดเจน
2. Feature Extraction: ผ่านกลไก “Hook” ในขั้นตอนเฉพาะ (ไม่ใช่จุดเริ่มต้นหรือสิ้นสุด) ของกระบวนการลดสัญญาณรบกวน จะดึงคุณลักษณะสำคัญของการเคลื่อนไหววัตถุจากเลเยอร์กลางของโมเดล
3. Action Generation: ส่งคุณลักษณะกลางเหล่านี้ไปยังโมเดลการกระทำโดยตรง เพื่อสร้างคำสั่งควบคุมที่แม่นยำ
จากการทดลอง Ablation Study ได้ข้อสรุปสำคัญสองประการ:
* ตำแหน่งการดึง: การดึงคุณลักษณะจากเลเยอร์ที่ 18 (กลางค่อนไปทางลึก) ของโมเดล Diffusion วิดีโอ ให้ผลลัพธ์ดีที่สุด
* เวลาการดึง: การดึงคุณลักษณะหลังจากลดสัญญาณรบกวนเพียง 1 ขั้นตอน ให้ผลลัพธ์ดีที่สุด
ตรรกะพื้นฐานของข้อสรุปทั้งสองนี้สอดคล้องกัน: มุ่งหวังที่จะหลีกเลี่ยงการรบกวนจาก “ข้อมูลความหมายที่ไม่มีคุณค่าในระดับผิวเผิน” และ “รายละเอียดพิกเซลที่เจาะจงเกินไป”
* คุณลักษณะระดับตื้นอาจเข้ารหัสเพียงคุณลักษณะภายนอก เช่น “สีแดง, ทรงกลม” แต่ไม่ช่วยในการทำความเข้าใจการกระทำ “วางลง”
* คุณลักษณะระดับลึกอาจให้ความสำคัญกับรายละเอียดระดับพิกเซลมากเกินไป (เช่น พิกเซลที่แม่นยำของจุดสะท้อนแสงบนปากแก้ว) แต่สูญเสียกฎการเคลื่อนไหวหลัก “เข้าใกล้เป้าหมาย”
* คุณลักษณะ “งานที่ทำเสร็จบางส่วน” ที่ดึงออกมาหลังจากลดสัญญาณรบกวน 1 ขั้นตอน สามารถจับกฎทางกายภาพทั่วไป เช่น “การเคลื่อนย้ายวัตถุไปยังภาชนะ” ได้ดีกว่า แทนที่จะเป็นลักษณะภายนอกของวัตถุเฉพาะเจาะจง ดังนั้นเมื่อเผชิญกับแก้วที่มีสีและรูปร่างต่างกัน หุ่นยนต์ยังคงสามารถทำงานได้อย่างถูกต้อง

(แผนภาพ: ผลกระทบของเลเยอร์เครือข่ายและจำนวนขั้นตอนการลดสัญญาณรบกวนที่ต่างกันต่อประสิทธิภาพการดึงคุณลักษณะ)
การออกแบบหลักที่สอง: Three Timestep Scheme
เพื่อประสานจังหวะที่แตกต่างกันของสองงานนี้ ได้แก่ การสร้างวิดีโอ (มุ่งเน้นความเร็ว) และการคาดการณ์การกระทำ (ต้องการการเรียนรู้อย่างละเอียด) และหลีกเลี่ยงการรบกวนซึ่งกันและกัน DiT4DiT ได้แนะนำ Timestep อิสระสามแบบ:
* Video Generation Timestep: ให้โมเดลวิดีโอเรียนรู้สร้างภาพอนาคตด้วยจังหวะสม่ำเสมอของตัวเอง
* Feature Extraction Timestep: ดึงคุณลักษณะกลางที่เสถียรจากโมเดลวิดีโอด้วยจังหวะคงที่ เพื่อใช้เป็นสะพานเชื่อม
* Action Generation Timestep: ให้โมเดลการกระทำมุ่งเน้นจังหวะสำคัญ เรียนรู้สร้างการกระทำที่แม่นยำตามคุณลักษณะ

(แผนภาพ: แผนผังแผนการฝึก Three Timestep Scheme)
การออกแบบนี้ทำให้งานย่อยทั้งสองสามารถทำงานในจังหวะที่เหมาะสมที่สุดของตัวเอง และทำงานร่วมกันอย่างมีประสิทธิภาพผ่านขั้นตอนการดึงคุณลักษณะที่คงที่ การทดลองแสดงให้เห็นว่าแผนการนี้ทำให้ความเร็วในการลู่เข้าของโมเดลเพิ่มขึ้น 7 เท่า และประสิทธิภาพการใช้ข้อมูลสูงกว่า 10 เท่าขึ้นไป
เหตุใดจึงใช้แผนการนี้?
ความก้าวหน้าอีกประการของ DiT4DiT คือการลดความซับซ้อนของการกำหนดค่าฮาร์ดแวร์: โมเดลใช้เพียงภาพจากกล้องหลัก (มุมมองจากศีรษะ) ของหุ่นยนต์ในการฝึกฝนและอนุมาน ไม่ได้ใช้กล้องที่ข้อมือ ทำให้เป็นโซลูชัน World Model บนหุ่นยนต์ฮิวแมนนอยด์ที่ใกล้เคียงกับสถานการณ์การใช้งานจริงมากขึ้น
ก่อนหน้านี้ ในอุตสาหกรรมมี World Model ที่ใช้กับแขนกลแล้ว แต่ยังไม่เคยทำงานสำเร็จบนหุ่นยนต์ฮิวแมนนอยด์ แม้ว่าจะมีโซลูชันเช่น UnifoLM ของ Unitree ที่ใช้กล้องหลายตัว (ศีรษะ, มือ) แต่ DiT4DiT พิสูจน์แล้วว่าเพียงแค่กล้องมุมมองหลักภายใต้กระบวนทัศน์ World Model ก็สามารถบรรลุผลลัพธ์ที่เทียบเท่าหรือดีกว่าได้
การวิจัยนี้มีเป้าหมายเพื่อแก้ไขสองปัญหาหลักในการเรียนรู้ของหุ่นยนต์:
1. การขาดความเข้าใจทางกายภาพของโมเดล VLA แบบดั้งเดิม: โมเดล Vision-Language-Action กระแสหลักได้รับการฝึกฝนจากข้อมูลภาพและข้อความแบบคงที่ ขาดความเข้าใจภายในเกี่ยวกับกฎทางกายภาพแบบไดนามิก (เช่น การเคลื่อนไหวของวัตถุ, ปฏิกิริยาการชน) ส่งผลให้หุ่นยนต์เรียนรู้ได้ไม่มีประสิทธิภาพ ความสามารถในการปรับใช้ทั่วไปต่ำ เมื่อเผชิญกับวัตถุหรือสภาพแวดล้อมใหม่ มักต้องเรียนรู้ใหม่
2. ศักยภาพของโมเดลวิดีโอแบบ Generative ยังไม่ถูกใช้อย่างเต็มที่: การวิจัยในอดีตใช้โมเดลวิดีโอเป็นเพียงเครื่องมือเสริม เพื่อสร้างข้อมูลฝึกฝนหรือดึงคุณลักษณะง่ายๆ ไม่เคยให้มันชี้นำการสร้างการกระทำของหุ่นยนต์โดยตรง ในขณะที่โมเดลวิดีโอแบบ Generative มีความเข้าใจเกี่ยวกับกระบวนการทางกายภาพโดยธรรมชาติ สามารถเพิ่มประสิทธิภาพการเรียนรู้และความสามารถในการปรับใช้แบบ Zero-shot ได้อย่างมาก

(แผนภาพ: การเปรียบเทียบวิธีการเรียนรู้ระหว่าง DiT4DiT กับโมเดล VLA แบบดั้งเดิม)
ผลการทดลอง
ทีมวิจัยได้ติดตั้ง DiT4DiT บนหุ่นยนต์ฮิวแมนนอยด์ G1 ของ Unitree และทำการประเมินใน 7 งานฉากต่างๆ เช่น จัดดอกไม้, ห่อของ, วางแก้วซ้อนกัน ผลลัพธ์แสดงให้เห็นว่าประสิทธิภาพของมันดีกว่าโมเดล GR00T-N1.5 ที่ฝึกไว้ล่วงหน้าและโมเดลฐาน Qwen3DiT ที่มีขนาดพารามิเตอร์เทียบเคียงได้ในทุกด้าน
ในด้านประสิทธิภาพ DiT4DiT ที่มีพารามิเตอร์ประมาณ 2 พันล้าน สามารถทำความเร็วในการอนุมานที่ 6 Hz บนการ์ดจอระดับผู้บริโภค RTX 4090 ในทางตรงกันข้าม อีกโซลูชันหนึ่งล่าสุด Cosmos Policy ต้องใช้การ์ดประสิทธิภาพสูงระดับมืออาชีพ H100 เพื่อให้ได้ประสิทธิภาพการอนุมานที่ 1 Hz นี่แสดงให้เห็นว่า DiT4DiT มีศักยภาพที่ดีกว่าในการปรับใช้บนชิปด้านหุ่นยนต์ (Edge)
แนะนำทีมงานบทความวิจัย
ทีมผู้เขียนและภูมิหลังการเริ่มต้นธุรกิจ
ทีมผู้เขียนของการวิจัยนี้มีทั้งหมดเจ็ดคน มาจาก Mondo Robotics, มหาวิทยาลัยฮ่องกงสำหรับวิทยาศาสตร์และเทคโนโลยี (กวางโจว) และมหาวิทยาลัยฮ่องกงสำหรับวิทยาศาสตร์และเทคโนโลยี
ในจำนวนนี้ Teli Ma, Jia Zheng และ Zifan Wang เป็นสมาชิกของทั้ง Mondo Robotics และมหาวิทยาลัยฮ่องกงสำหรับวิทยาศาสตร์และเทคโนโลยี (กวางโจว)
ศาสตราจารย์ Junwei Liang จากมหาวิทยาลัยฮ่องกงสำหรับวิทยาศาสตร์และเทคโนโลยี และ Yang Shuo เป็นผู้เขียนรับผิดชอบบทความร่วมกัน (Corresponding Authors) รับผิดชอบในการควบคุมทิศทางโดยรวมของบทความ การออกแบบการทดลอง และคำแนะนำทางวิชาการ
Yang Shuo เคยทำงานที่ DJI ในตำแหน่ง Technical Director ก่อนจะไปศึกษาต่อที่ Carnegie Mellon University (CMU) และได้รับปริญญาเอก หลังจากสำเร็จการศึกษา เขาเข้าร่วมทีมหุ่นยนต์ฮิวแมนนอยด์ Optimus ของ Tesla และเป็นหนึ่งในสมาชิกชาวจีนที่มีชื่อเสียงที่ลาออกมาเริ่มต้นธุรกิจ
Mondo Robotics ก่อตั้งขึ้นในเดือนมกราคม 2025 ผู้รับผิดชอบตามกฎหมายและประธานคณะกรรมการคือ Gao Jianrong Gao Jianrong เป็นเพื่อนร่วมงานของ Yang Shuo ในสมัยที่ DJI เคยเป็นผู้บริหารที่อายุน้อยที่สุดในประวัติศาสตร์ของ DJI รับผิดชอบด้านซัพพลายเชน แผนกการตลาด และหน่วยธุรกิจการศึกษา และเคยร่วมกับ Yang Shuo นำการแข่งขันหุ่นยนต์ “RoboMaster”
ประมาณสามเดือนหลังจาก Gao Jianrong จดทะเบียนบริษัท Yang Shuo ก็ลาออกจาก Tesla อย่างเป็นทางการ และเข้าร่วม Mondo Robotics ในตำแหน่งผู้ร่วมก่อตั้งและ CTO

เส้นทางเทคโนโลยีและความคิดเกี่ยวกับอุตสาหกรรม
ในฐานะผู้ตอบที่มีชื่อเสียงบน Zhihu Yang Shuo ในบทความหนึ่งช่วงปลายปี 2025 ได้ทบทวนประสบการณ์จากสหรัฐอเมริกาจนกลับมาประเทศจีนเพื่อเริ่มต้นธุรกิจ และได้กล่าวถึงการอภิปรายสำคัญในแวดวงวิชาการหุ่นยนต์ระหว่างปี 2024-2025: การควบคุมการเคลื่อนไหวการเดินทั้งตัวของหุ่นยนต์ฮิวแมนนอยด์ ควรให้ความสำคัญกับ Model Predictive Control (MPC) หรือ Reinforcement Learning (RL) ก่อน
“ตลอดทั้งปี 2024 ฉันใช้ความรู้ทั้งหมดที่มีใน Tesla พยายามนำ MPC มาใช้กับหุ่นยนต์ฮิวแมนนอยด์ขนาดเต็ม Optimus … อย่างไรก็ตาม สิ่งเหล่านี้ไม่ได้ช่วยอะไรเลย ตอนสิ้นปี หลังจากคิดทบทวนอย่างเจ็บปวด ได้เปลี่ยนมาใช้เทคโนโลยี Reinforcement Learning (RL) ที่เป็นที่นิยมมากที่สุดในขณะนั้น หลังจากนั้นใช้เวลาเพียงเดือนกว่าๆ ก็ปรับคอนโทรลเลอร์ Neural Network ให้หุ่นยนต์วิ่งขึ้นเขาได้ ความรู้สึกตกใจของฉันในตอนนั้นยากที่จะบรรยายเป็นคำพูด”
Yang Shuo กล่าวว่า ในปัจจุบันทีมงานด้านเทคโนโลยีของ Mondo Robotics ใช้เทคโนโลยี Reinforcement Learning และ Deep Learning อย่างกว้างขวาง ในการพัฒนาคอนโทรลเลอร์การเคลื่อนไหวและการทำงานของหุ่นยนต์ “เราได้สร้างต้นแบบผลิตภัณฑ์ที่ยอดเยี่ยมบางส่วนขึ้นมาแล้ว คาดว่าผลงานด้านอัลกอริทึมการเคลื่อนไหวและโมเดลการทำงานของหุ่นยนต์ฮิวแมนนอยด์จะประกาศในปี 2026” บทความวิจัยที่เผยแพร่ในครั้งนี้ เป็นการแสดงให้เห็นถึงระบบการวิจัยและพัฒนาทางเทคโนโลยีที่สำคัญของพวกเขา
ข้อเสนอแนะเกี่ยวกับโมเดลและแผนต่อไป
สำหรับข้อเสนอแนะจากผู้ใช้ในระยะแรกที่ว่าโมเดลมีอาการกระตุกเป็นช่วงๆ Yang Shuo อธิบายว่า: “นี่ไม่ใช่ bug นี่เป็นเพราะ VAM (Video Action Model) มีความเร็วในการอนุมานค่อนข้างช้า แม้ว่าจะมีกลไกการทำให้เรียบ แต่หุ่นยนต์ยังคงได้รับคำสั่ง trajectory ที่ไม่ต่อเนื่อง เราจำเป็นต้องเพิ่มความเร็วในการอนุมานผ่านการบีบอัดโมเดล”
ทีมวิจัยระบุว่า รหัสที่เกี่ยวข้องจะเปิดตัวเป็นโอเพนซอร์สในไม่ช้า ลิงก์บทความวิจัยได้ให้ไว้แล้ว สามารถศึกษาเพิ่มเติมได้
ข้อมูลอ้างอิง:
[1] โฮมเพจโปรเจกต์: https://dit4dit.github.io/
[2] ลิงก์บทความวิจัย
[3] คอลัมน์ Zhihu ของผู้เขียน
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
