เมื่อเร็วๆ นี้ โมเดลโลก-แอคชัน DreamZero ที่ NVIDIA เปิดตัว ได้ทำคะแนนนำในการทดสอบมาตรฐานหุ่นยนต์สองรายการคือ RoboArena และ MolmoSpaces
แนวคิดการออกแบบหลักของ DreamZero คือ: ภายในโมเดลเดียว ทำนายเฟรมวิดีโอในอนาคตและแอคชันของหุ่นยนต์ไปพร้อมๆ กัน ซึ่งหมายความว่าก่อนที่หุ่นยนต์จะดำเนินการแอคชัน มันสามารถ “จินตนาการ” ภายในโมเดลได้ โดยแสดงตัวอย่างล่วงหน้าถึงการเปลี่ยนแปลงสถานะของโลกที่อาจเกิดขึ้นจากพฤติกรรมของมัน

อย่างไรก็ตาม การออกแบบนี้ได้นำไปสู่คำถามที่ลึกซึ้งยิ่งขึ้น: ทำไมสถาปัตยกรรมที่ทำนายโลกและแอคชันร่วมกันนี้จึงสามารถนำไปสู่การปรับปรุงประสิทธิภาพที่โดดเด่นได้? มันมีข้อได้เปรียบอะไรเมื่อเทียบกับโมเดลกลยุทธ์ดั้งเดิมหรือโมเดลโลก? นี่คือความก้าวหน้าทางกระบวนทัศน์ของระเบียบวิธีวิจัย หรือเป็นผลหลักมาจากการขยายขนาดของข้อมูลและโมเดล?
เพื่อตอบคำถามเหล่านี้ บทความวิเคราะห์ล่าสุดชื่อ “Why is DreamZero so good at robotics?” ได้ให้การตีความเชิงลึก สำรวจคุณลักษณะของข้อมูลและสถาปัตยกรรมที่จำเป็นสำหรับการฝึกกลยุทธ์หุ่นยนต์ทั่วไป และท้าทายความเข้าใจเดิมบางประการ ผู้เขียนบทความ Chris Paxton เป็นนักวิจัยหุ่นยนต์และปัญญาประดิษฐ์ เคยรับผิดชอบการวิจัยด้าน embodied intelligence ที่ Hello Robot และมีประสบการณ์ทำงานที่ NVIDIA Research และ Meta FAIR

บทความนี้วิเคราะห์สาเหตุที่เป็นไปได้ที่ทำให้ DreamZero มีประสิทธิภาพโดดเด่น จากหลายมิติ เช่น สถาปัตยกรรมโมเดล การกระจายตัวของข้อมูลการฝึก ขนาดของเครือข่ายหลัก ความยาวของบริบทเวลา และการสร้างวิดีโอเป็นสัญญาณกำกับเสริม

ต่อไปนี้เป็นสรุปเนื้อหาหลักของบทความ
DreamZero คืออะไร?

DreamZero เป็น “โมเดลโลก-แอคชัน” ที่ NVIDIA เสนอขึ้นมา มันดูดซับแนวคิดหลักของโมเดลโลก โดยเฉพาะการยอมรับคุณค่าของการสร้างวิดีโอต่องานหุ่นยนต์ แต่ได้ปรับปรุงที่สำคัญในการออกแบบหลัก: จุดสำคัญอยู่ที่ การสร้างแบบจำลองร่วมกันของการสร้างแอคชันและการสร้างวิดีโอ
โดยทั่วไป โมเดลโลกสามารถแบ่งออกเป็นสองประเภท:
1. โมเดลโลกแบบมีเงื่อนไขแอคชัน: เรียนรู้การแมปจากสถานะปัจจุบันและแอคชันไปยังสถานะถัดไป นั่นคือ ( x’ = f(x, a) ) เช่น V-JEPA 2 หรือโมเดลในบทความ RISE ล่าสุด
2. โมเดลโลกพลวัตผกผัน: เรียนรู้การเปลี่ยนสถานะก่อน ( x’ = f(x) ) จากนั้นเรียนรู้แอคชันผ่านโมเดลพลวัตผกผัน ( a = g(x, x’) ) เช่น DreamGen ของ NVIDIA หรือโมเดลโลกของ 1X
ในทางตรงกันข้าม DreamZero ใกล้เคียงกับโมเดลกลยุทธ์หุ่นยนต์แบบดั้งเดิมมากขึ้น แต่ในขณะเดียวกันก็ทำนายวิดีโอในอนาคต เป้าหมายการเรียนรู้สามารถสรุปได้เป็น: ( (x’, a) = f(x) ) นั่นคือภายในโมเดล จะส่งออกทั้งการทำนายสถานะในอนาคตและแอคชันที่ควรดำเนินการ ไปพร้อมๆ กัน
เมื่อเทียบกับโมเดลภาพ-ภาษา-แอคชันแบบดั้งเดิม การทำนายภาพในอนาคตที่เพิ่มเข้ามาใน DreamZero ให้สัญญาณกำกับที่อุดมสมบูรณ์ยิ่งขึ้นแก่โมเดล ซึ่งไม่เพียงแต่ระบุว่า “ควรทำอะไร” แต่ยังเปิดเผยว่า “โลกจะเปลี่ยนแปลงอย่างไร” จึงช่วยให้โมเดลเข้าใจกฎเกณฑ์ของการวิวัฒนาการของสิ่งแวดล้อมได้ลึกซึ้งยิ่งขึ้น
ประสิทธิภาพในการทดสอบมาตรฐาน

- RoboArena: นี่คือการทดสอบมาตรฐานโลกจริงแบบกระจายที่สร้างขึ้นจากชุดข้อมูล Droid ผู้ประเมินใช้หุ่นยนต์และการตั้งค่าที่คล้ายกันทั่วโลก เพื่อดำเนินงานแบบเปิดตามคำสั่งภาษาธรรมชาติ จากมุมมองการกระจายตัวของข้อมูล นี่เป็นสถานการณ์ ภายในการกระจายตัว สำหรับ DreamZero เนื่องจากข้อมูลการฝึกของมันรวม Droid ไว้ด้วย แต่มันยังคงเผชิญกับความซับซ้อนของโลกจริงและความท้าทายด้านความหลากหลายของงาน การทดสอบมาตรฐานนี้ใช้การเปรียบเทียบแบบ “ต่อสู้” คล้ายกับ Chatbot Arena

- MolmoSpaces: นี่คือแพลตฟอร์มการทดสอบมาตรฐานใหม่ที่มีการจำลองทางฟิสิกส์ความเที่ยงตรงสูงและสภาพแวดล้อมที่สร้างขึ้นแบบโปรแกรม MolmoSpaces-Bench มุ่งเน้นการทดสอบประสิทธิภาพภายใต้เงื่อนไขการเปลี่ยนแปลงที่ควบคุมได้หลากหลาย (เช่น การจับ การวาง การเปิดปิด และงานผสม) การทดสอบมาตรฐานนี้ยังไม่ถึงจุดอิ่มตัวของประสิทธิภาพ ช่องว่างระหว่างโมเดลต่างๆ ชัดเจน และ DreamZero แสดงผลงานที่ยอดเยี่ยมในนั้น
ข้อมูลเชิงลึกสำคัญ: การเปรียบเทียบกับ pi-0.5
การเปรียบเทียบกับโมเดล pi-0.5 ซึ่งอยู่ในอันดับที่สองในปัจจุบัน สามารถเปิดเผยปัจจัยสำคัญบางประการ
1. การกระจายตัวของข้อมูลการฝึกอาจสำคัญกว่าปริมาณข้อมูล
* pi-0.5 ใช้ข้อมูลหุ่นยนต์จริงมากกว่า 10,000 ชั่วโมง ข้อมูล VLM และข้อมูล Droid ในการฝึก
* DreamZero ฝึกโดยใช้ข้อมูล DROID หรือ AgiBot เป็นหลัก
* สิ่งที่น่าสังเกตคือ บนชุดข้อมูล AgiBot (ซึ่งไม่รวมอยู่ในข้อมูลการฝึกของ pi-0.5) DreamZero แสดงผลดีกว่า pi-0.5 อย่างมีนัยสำคัญ ในขณะที่ภายใต้การตั้งค่า DROID-Franka ที่ทั้งสองฝ่ายใช้ร่วมกัน ช่องว่างของประสิทธิภาพจะน้อยกว่ามาก

นี่ชี้ให้เห็นว่าข้อมูลหุ่นยนต์เพิ่มเติมนับหมื่นชั่วโมงอาจไม่นำไปสู่การปรับปรุงการถ่ายทอดความรู้ตามที่คาดหวัง กุญแจสำคัญอาจอยู่ที่ว่ามีการฝึกล่วงหน้าเกี่ยวกับข้อมูลหุ่นยนต์ใน “การกระจายตัวที่ถูกต้อง” หรือไม่ บล็อกล่าสุดของ Physical Intelligence ก็แสดงข้อสรุปที่คล้ายกัน: การฝึกล่วงหน้าบนข้อมูลที่สอดคล้องอย่างสูงกับการกระจายตัวของงานเป้าหมาย สามารถนำไปสู่การปรับปรุงประสิทธิภาพอย่างมาก

ดังนั้น การรวบรวมข้อมูลจำนวนมากจากหุ่นยนต์รูปแบบอื่น อาจไม่ได้ให้ผลตอบแทนสูงกว่าการใช้ข้อมูลวิดีโอมุมมองบุคคลที่หนึ่งที่มีปริมาณเพียงพอและต้นทุนต่ำ สำหรับนักวิจัยที่หวังจะฝึกโมเดลทั่วไปข้ามตัวหุ่นยนต์ นี่เป็นการค้นพบที่ควรพิจารณาอย่างลึกซึ้ง
2. เครือข่ายหลักของโมเดลและการป้อนข้อมูล
* ความแตกต่างของขนาด: DreamZero สร้างขึ้นบนพื้นฐานของโมเดลการสร้างวิดีโอ Wan2.1-I2V-14B-480P ที่มีพารามิเตอร์ 14 พันล้านตัว pi-0.5 สร้างขึ้นบนพื้นฐานของโมเดลภาพ-ภาษา PaliGemma ที่มีพารามิเตอร์ 3 พันล้านตัว ขนาดพารามิเตอร์ต่างกันเกือบ 5 เท่า
* วิธีการป้อนข้อมูล: DreamZero สามารถรับ เฟรมประวัติสูงสุด 8 เฟรม เป็นบริบท ทำให้สามารถสังเกตวิดีโอสั้นๆ ได้ pi-0.5 สามารถป้อนข้อมูล ภาพเฟรมเดียว เพื่อการตัดสินใจเท่านั้น
งานหุ่นยนต์ในโลกจริงมักมีลักษณะที่สังเกตได้บางส่วน ขึ้นอยู่กับพลวัตทางฟิสิกส์ที่ซับซ้อน และต้องเข้าใจความต่อเนื่องของเวลา ตัวอย่างเช่น การตัดสินสถานะการเคลื่อนที่ของวัตถุ การอนุมานผลลัพธ์ของแอคชัน การเข้าใจผลของความเฉื่อย เป็นต้น ด้วยภาพเฟรมเดียว โมเดลยากที่จะจับข้อมูลเหล่านี้ ในขณะที่การให้ข้อมูลหลายเฟรมต่อเนื่อง (เช่น 8 เฟรม) ทำให้โมเดลสามารถรับรู้แนวโน้มการเคลื่อนไหวและการเปลี่ยนแปลงสถานะได้ เรียนรู้กฎฟิสิกส์พื้นฐานได้ง่ายขึ้น และตัดสินใจได้อย่างมั่นคงและแม่นยำยิ่งขึ้น
DreamZero เป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์สูงถึง 14 พันล้านตัว ดังนั้น ส่วนหนึ่งของงานวิจัยจึงมุ่งเน้นไปที่วิธีการทำให้โมเดลยักษ์นี้ทำงานแบบเรียลไทม์ การทดลอง ablation ในบทความแสดงให้เห็นว่าขนาดโมเดลเป็นหนึ่งในปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพของมัน

อย่างไรก็ตาม การนำข้อมูลประวัติที่ยาวขึ้นและขยายขนาดโมเดลมักจะนำไปสู่ปัญหาความยากในการฝึกที่เพิ่มขึ้น และนำไปสู่การ overfitting ได้ง่ายขึ้นในสถานการณ์ที่มีข้อมูลจำกัด ซึ่งแตกต่างอย่างมากจากกรณีของโมเดลภาษาขนาดใหญ่ ที่ได้รับประโยชน์จากข้อมูลการฝึกจำนวนมหาศาลและแทบไม่ต้องกังวลเรื่อง overfitting โดเมนหุ่นยนต์โดยพื้นฐานแล้วอยู่ในสภาพแวดล้อมที่ขาดแคลนข้อมูลเสมอ แม้แต่ชุดข้อมูล DROID ที่ค่อนข้างใหญ่ในปัจจุบัน เมื่อเทียบกับชุดข้อมูลของโมเดลภาษาขนาดเล็กที่สุด ก็ยังเล็กกว่ามาก
จากนี้สามารถตั้งสมมติฐานได้ว่า: เป้าหมายการสร้างวิดีโอทำหน้าที่เป็น loss เสริมที่นี่ มันกำหนดข้อจำกัดเชิงโครงสร้างให้กับโมเดล DreamZero ซึ่งอาจบังคับให้โมเดลเรียนรู้โมเดลโลกภายในบางรูปแบบ เมื่อเทียบกับสัญญาณรางวัลแบบ sparse ที่ให้โดยแอคชันหุ่นยนต์ การทำนายวิดีโอให้สัญญาณกำกับที่แข็งแกร่งและหนาแน่นกว่า ซึ่งอาจช่วยให้โมเดลถ่ายทอดความรู้ไปยังสภาพแวดล้อม MolmoSpaces ที่หลากหลาย ซึ่งไม่เคยสัมผัสโดยตรงในการฝึก ได้ดีขึ้น
สรุปและมองไปข้างหน้า
จากบทความที่มีอยู่ในปัจจุบันเพียงอย่างเดียว เรายังไม่สามารถสรุปทั้งหมดได้ ตัวอย่างเช่น เราไม่สามารถทราบรายละเอียดข้อมูลทั้งหมดที่ Physical Intelligence ใช้ และในปัจจุบัน อุปกรณ์ NVIDIA GB200 ที่ใช้สำหรับการอนุมานก็ยังไม่สามารถหาได้ง่าย แต่สำหรับนักวิจัยหลายคน งานนี้ให้ข้อคิดสำคัญ: บางทีเราไม่จำเป็นต้องมีข้อมูลมหาศาลดังที่เคยคิดไว้ก่อนหน้านี้ เพื่อให้ได้ประสิทธิภาพที่แข็งแกร่งในงานหุ่นยนต์โลกจริง
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23957
