NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

เมื่อเร็วๆ นี้ โมเดลโลก-แอคชัน DreamZero ที่ NVIDIA เปิดตัว ได้ทำคะแนนนำในการทดสอบมาตรฐานหุ่นยนต์สองรายการคือ RoboArena และ MolmoSpaces

แนวคิดการออกแบบหลักของ DreamZero คือ: ภายในโมเดลเดียว ทำนายเฟรมวิดีโอในอนาคตและแอคชันของหุ่นยนต์ไปพร้อมๆ กัน ซึ่งหมายความว่าก่อนที่หุ่นยนต์จะดำเนินการแอคชัน มันสามารถ “จินตนาการ” ภายในโมเดลได้ โดยแสดงตัวอย่างล่วงหน้าถึงการเปลี่ยนแปลงสถานะของโลกที่อาจเกิดขึ้นจากพฤติกรรมของมัน

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

อย่างไรก็ตาม การออกแบบนี้ได้นำไปสู่คำถามที่ลึกซึ้งยิ่งขึ้น: ทำไมสถาปัตยกรรมที่ทำนายโลกและแอคชันร่วมกันนี้จึงสามารถนำไปสู่การปรับปรุงประสิทธิภาพที่โดดเด่นได้? มันมีข้อได้เปรียบอะไรเมื่อเทียบกับโมเดลกลยุทธ์ดั้งเดิมหรือโมเดลโลก? นี่คือความก้าวหน้าทางกระบวนทัศน์ของระเบียบวิธีวิจัย หรือเป็นผลหลักมาจากการขยายขนาดของข้อมูลและโมเดล?

เพื่อตอบคำถามเหล่านี้ บทความวิเคราะห์ล่าสุดชื่อ “Why is DreamZero so good at robotics?” ได้ให้การตีความเชิงลึก สำรวจคุณลักษณะของข้อมูลและสถาปัตยกรรมที่จำเป็นสำหรับการฝึกกลยุทธ์หุ่นยนต์ทั่วไป และท้าทายความเข้าใจเดิมบางประการ ผู้เขียนบทความ Chris Paxton เป็นนักวิจัยหุ่นยนต์และปัญญาประดิษฐ์ เคยรับผิดชอบการวิจัยด้าน embodied intelligence ที่ Hello Robot และมีประสบการณ์ทำงานที่ NVIDIA Research และ Meta FAIR

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

บทความนี้วิเคราะห์สาเหตุที่เป็นไปได้ที่ทำให้ DreamZero มีประสิทธิภาพโดดเด่น จากหลายมิติ เช่น สถาปัตยกรรมโมเดล การกระจายตัวของข้อมูลการฝึก ขนาดของเครือข่ายหลัก ความยาวของบริบทเวลา และการสร้างวิดีโอเป็นสัญญาณกำกับเสริม

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

ต่อไปนี้เป็นสรุปเนื้อหาหลักของบทความ

DreamZero คืออะไร?

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

DreamZero เป็น “โมเดลโลก-แอคชัน” ที่ NVIDIA เสนอขึ้นมา มันดูดซับแนวคิดหลักของโมเดลโลก โดยเฉพาะการยอมรับคุณค่าของการสร้างวิดีโอต่องานหุ่นยนต์ แต่ได้ปรับปรุงที่สำคัญในการออกแบบหลัก: จุดสำคัญอยู่ที่ การสร้างแบบจำลองร่วมกันของการสร้างแอคชันและการสร้างวิดีโอ

โดยทั่วไป โมเดลโลกสามารถแบ่งออกเป็นสองประเภท:
1. โมเดลโลกแบบมีเงื่อนไขแอคชัน: เรียนรู้การแมปจากสถานะปัจจุบันและแอคชันไปยังสถานะถัดไป นั่นคือ ( x’ = f(x, a) ) เช่น V-JEPA 2 หรือโมเดลในบทความ RISE ล่าสุด
2. โมเดลโลกพลวัตผกผัน: เรียนรู้การเปลี่ยนสถานะก่อน ( x’ = f(x) ) จากนั้นเรียนรู้แอคชันผ่านโมเดลพลวัตผกผัน ( a = g(x, x’) ) เช่น DreamGen ของ NVIDIA หรือโมเดลโลกของ 1X

ในทางตรงกันข้าม DreamZero ใกล้เคียงกับโมเดลกลยุทธ์หุ่นยนต์แบบดั้งเดิมมากขึ้น แต่ในขณะเดียวกันก็ทำนายวิดีโอในอนาคต เป้าหมายการเรียนรู้สามารถสรุปได้เป็น: ( (x’, a) = f(x) ) นั่นคือภายในโมเดล จะส่งออกทั้งการทำนายสถานะในอนาคตและแอคชันที่ควรดำเนินการ ไปพร้อมๆ กัน

เมื่อเทียบกับโมเดลภาพ-ภาษา-แอคชันแบบดั้งเดิม การทำนายภาพในอนาคตที่เพิ่มเข้ามาใน DreamZero ให้สัญญาณกำกับที่อุดมสมบูรณ์ยิ่งขึ้นแก่โมเดล ซึ่งไม่เพียงแต่ระบุว่า “ควรทำอะไร” แต่ยังเปิดเผยว่า “โลกจะเปลี่ยนแปลงอย่างไร” จึงช่วยให้โมเดลเข้าใจกฎเกณฑ์ของการวิวัฒนาการของสิ่งแวดล้อมได้ลึกซึ้งยิ่งขึ้น

ประสิทธิภาพในการทดสอบมาตรฐาน

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

  • RoboArena: นี่คือการทดสอบมาตรฐานโลกจริงแบบกระจายที่สร้างขึ้นจากชุดข้อมูล Droid ผู้ประเมินใช้หุ่นยนต์และการตั้งค่าที่คล้ายกันทั่วโลก เพื่อดำเนินงานแบบเปิดตามคำสั่งภาษาธรรมชาติ จากมุมมองการกระจายตัวของข้อมูล นี่เป็นสถานการณ์ ภายในการกระจายตัว สำหรับ DreamZero เนื่องจากข้อมูลการฝึกของมันรวม Droid ไว้ด้วย แต่มันยังคงเผชิญกับความซับซ้อนของโลกจริงและความท้าทายด้านความหลากหลายของงาน การทดสอบมาตรฐานนี้ใช้การเปรียบเทียบแบบ “ต่อสู้” คล้ายกับ Chatbot Arena

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

  • MolmoSpaces: นี่คือแพลตฟอร์มการทดสอบมาตรฐานใหม่ที่มีการจำลองทางฟิสิกส์ความเที่ยงตรงสูงและสภาพแวดล้อมที่สร้างขึ้นแบบโปรแกรม MolmoSpaces-Bench มุ่งเน้นการทดสอบประสิทธิภาพภายใต้เงื่อนไขการเปลี่ยนแปลงที่ควบคุมได้หลากหลาย (เช่น การจับ การวาง การเปิดปิด และงานผสม) การทดสอบมาตรฐานนี้ยังไม่ถึงจุดอิ่มตัวของประสิทธิภาพ ช่องว่างระหว่างโมเดลต่างๆ ชัดเจน และ DreamZero แสดงผลงานที่ยอดเยี่ยมในนั้น

ข้อมูลเชิงลึกสำคัญ: การเปรียบเทียบกับ pi-0.5

การเปรียบเทียบกับโมเดล pi-0.5 ซึ่งอยู่ในอันดับที่สองในปัจจุบัน สามารถเปิดเผยปัจจัยสำคัญบางประการ

1. การกระจายตัวของข้อมูลการฝึกอาจสำคัญกว่าปริมาณข้อมูล
* pi-0.5 ใช้ข้อมูลหุ่นยนต์จริงมากกว่า 10,000 ชั่วโมง ข้อมูล VLM และข้อมูล Droid ในการฝึก
* DreamZero ฝึกโดยใช้ข้อมูล DROID หรือ AgiBot เป็นหลัก
* สิ่งที่น่าสังเกตคือ บนชุดข้อมูล AgiBot (ซึ่งไม่รวมอยู่ในข้อมูลการฝึกของ pi-0.5) DreamZero แสดงผลดีกว่า pi-0.5 อย่างมีนัยสำคัญ ในขณะที่ภายใต้การตั้งค่า DROID-Franka ที่ทั้งสองฝ่ายใช้ร่วมกัน ช่องว่างของประสิทธิภาพจะน้อยกว่ามาก

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

นี่ชี้ให้เห็นว่าข้อมูลหุ่นยนต์เพิ่มเติมนับหมื่นชั่วโมงอาจไม่นำไปสู่การปรับปรุงการถ่ายทอดความรู้ตามที่คาดหวัง กุญแจสำคัญอาจอยู่ที่ว่ามีการฝึกล่วงหน้าเกี่ยวกับข้อมูลหุ่นยนต์ใน “การกระจายตัวที่ถูกต้อง” หรือไม่ บล็อกล่าสุดของ Physical Intelligence ก็แสดงข้อสรุปที่คล้ายกัน: การฝึกล่วงหน้าบนข้อมูลที่สอดคล้องอย่างสูงกับการกระจายตัวของงานเป้าหมาย สามารถนำไปสู่การปรับปรุงประสิทธิภาพอย่างมาก

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

ดังนั้น การรวบรวมข้อมูลจำนวนมากจากหุ่นยนต์รูปแบบอื่น อาจไม่ได้ให้ผลตอบแทนสูงกว่าการใช้ข้อมูลวิดีโอมุมมองบุคคลที่หนึ่งที่มีปริมาณเพียงพอและต้นทุนต่ำ สำหรับนักวิจัยที่หวังจะฝึกโมเดลทั่วไปข้ามตัวหุ่นยนต์ นี่เป็นการค้นพบที่ควรพิจารณาอย่างลึกซึ้ง

2. เครือข่ายหลักของโมเดลและการป้อนข้อมูล
* ความแตกต่างของขนาด: DreamZero สร้างขึ้นบนพื้นฐานของโมเดลการสร้างวิดีโอ Wan2.1-I2V-14B-480P ที่มีพารามิเตอร์ 14 พันล้านตัว pi-0.5 สร้างขึ้นบนพื้นฐานของโมเดลภาพ-ภาษา PaliGemma ที่มีพารามิเตอร์ 3 พันล้านตัว ขนาดพารามิเตอร์ต่างกันเกือบ 5 เท่า
* วิธีการป้อนข้อมูล: DreamZero สามารถรับ เฟรมประวัติสูงสุด 8 เฟรม เป็นบริบท ทำให้สามารถสังเกตวิดีโอสั้นๆ ได้ pi-0.5 สามารถป้อนข้อมูล ภาพเฟรมเดียว เพื่อการตัดสินใจเท่านั้น

งานหุ่นยนต์ในโลกจริงมักมีลักษณะที่สังเกตได้บางส่วน ขึ้นอยู่กับพลวัตทางฟิสิกส์ที่ซับซ้อน และต้องเข้าใจความต่อเนื่องของเวลา ตัวอย่างเช่น การตัดสินสถานะการเคลื่อนที่ของวัตถุ การอนุมานผลลัพธ์ของแอคชัน การเข้าใจผลของความเฉื่อย เป็นต้น ด้วยภาพเฟรมเดียว โมเดลยากที่จะจับข้อมูลเหล่านี้ ในขณะที่การให้ข้อมูลหลายเฟรมต่อเนื่อง (เช่น 8 เฟรม) ทำให้โมเดลสามารถรับรู้แนวโน้มการเคลื่อนไหวและการเปลี่ยนแปลงสถานะได้ เรียนรู้กฎฟิสิกส์พื้นฐานได้ง่ายขึ้น และตัดสินใจได้อย่างมั่นคงและแม่นยำยิ่งขึ้น

DreamZero เป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์สูงถึง 14 พันล้านตัว ดังนั้น ส่วนหนึ่งของงานวิจัยจึงมุ่งเน้นไปที่วิธีการทำให้โมเดลยักษ์นี้ทำงานแบบเรียลไทม์ การทดลอง ablation ในบทความแสดงให้เห็นว่าขนาดโมเดลเป็นหนึ่งในปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพของมัน

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

อย่างไรก็ตาม การนำข้อมูลประวัติที่ยาวขึ้นและขยายขนาดโมเดลมักจะนำไปสู่ปัญหาความยากในการฝึกที่เพิ่มขึ้น และนำไปสู่การ overfitting ได้ง่ายขึ้นในสถานการณ์ที่มีข้อมูลจำกัด ซึ่งแตกต่างอย่างมากจากกรณีของโมเดลภาษาขนาดใหญ่ ที่ได้รับประโยชน์จากข้อมูลการฝึกจำนวนมหาศาลและแทบไม่ต้องกังวลเรื่อง overfitting โดเมนหุ่นยนต์โดยพื้นฐานแล้วอยู่ในสภาพแวดล้อมที่ขาดแคลนข้อมูลเสมอ แม้แต่ชุดข้อมูล DROID ที่ค่อนข้างใหญ่ในปัจจุบัน เมื่อเทียบกับชุดข้อมูลของโมเดลภาษาขนาดเล็กที่สุด ก็ยังเล็กกว่ามาก

จากนี้สามารถตั้งสมมติฐานได้ว่า: เป้าหมายการสร้างวิดีโอทำหน้าที่เป็น loss เสริมที่นี่ มันกำหนดข้อจำกัดเชิงโครงสร้างให้กับโมเดล DreamZero ซึ่งอาจบังคับให้โมเดลเรียนรู้โมเดลโลกภายในบางรูปแบบ เมื่อเทียบกับสัญญาณรางวัลแบบ sparse ที่ให้โดยแอคชันหุ่นยนต์ การทำนายวิดีโอให้สัญญาณกำกับที่แข็งแกร่งและหนาแน่นกว่า ซึ่งอาจช่วยให้โมเดลถ่ายทอดความรู้ไปยังสภาพแวดล้อม MolmoSpaces ที่หลากหลาย ซึ่งไม่เคยสัมผัสโดยตรงในการฝึก ได้ดีขึ้น

สรุปและมองไปข้างหน้า

จากบทความที่มีอยู่ในปัจจุบันเพียงอย่างเดียว เรายังไม่สามารถสรุปทั้งหมดได้ ตัวอย่างเช่น เราไม่สามารถทราบรายละเอียดข้อมูลทั้งหมดที่ Physical Intelligence ใช้ และในปัจจุบัน อุปกรณ์ NVIDIA GB200 ที่ใช้สำหรับการอนุมานก็ยังไม่สามารถหาได้ง่าย แต่สำหรับนักวิจัยหลายคน งานนี้ให้ข้อคิดสำคัญ: บางทีเราไม่จำเป็นต้องมีข้อมูลมหาศาลดังที่เคยคิดไว้ก่อนหน้านี้ เพื่อให้ได้ประสิทธิภาพที่แข็งแกร่งในงานหุ่นยนต์โลกจริง


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23957

Like (0)
Previous 3 hours ago
Next 3 hours ago

相关推荐