NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

3 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

เมื่อเร็วๆ นี้ โมเดลโลก-แอคชัน DreamZero ที่ NVIDIA เปิดตัว ได้ทำคะแนนนำในการทดสอบมาตรฐานหุ่นยนต์สองรายการคือ RoboArena และ MolmoSpaces

แนวคิดการออกแบบหลักของ DreamZero คือ: ภายในโมเดลเดียว ทำนายเฟรมวิดีโอในอนาคตและแอคชันของหุ่นยนต์ไปพร้อมๆ กัน ซึ่งหมายความว่าก่อนที่หุ่นยนต์จะดำเนินการแอคชัน มันสามารถ “จินตนาการ” ภายในโมเดลได้ โดยแสดงตัวอย่างล่วงหน้าถึงการเปลี่ยนแปลงสถานะของโลกที่อาจเกิดขึ้นจากพฤติกรรมของมัน

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

อย่างไรก็ตาม การออกแบบนี้ได้นำไปสู่คำถามที่ลึกซึ้งยิ่งขึ้น: ทำไมสถาปัตยกรรมที่ทำนายโลกและแอคชันร่วมกันนี้จึงสามารถนำไปสู่การปรับปรุงประสิทธิภาพที่โดดเด่นได้? มันมีข้อได้เปรียบอะไรเมื่อเทียบกับโมเดลกลยุทธ์ดั้งเดิมหรือโมเดลโลก? นี่คือความก้าวหน้าทางกระบวนทัศน์ของระเบียบวิธีวิจัย หรือเป็นผลหลักมาจากการขยายขนาดของข้อมูลและโมเดล?

เพื่อตอบคำถามเหล่านี้ บทความวิเคราะห์ล่าสุดชื่อ “Why is DreamZero so good at robotics?” ได้ให้การตีความเชิงลึก สำรวจคุณลักษณะของข้อมูลและสถาปัตยกรรมที่จำเป็นสำหรับการฝึกกลยุทธ์หุ่นยนต์ทั่วไป และท้าทายความเข้าใจเดิมบางประการ ผู้เขียนบทความ Chris Paxton เป็นนักวิจัยหุ่นยนต์และปัญญาประดิษฐ์ เคยรับผิดชอบการวิจัยด้าน embodied intelligence ที่ Hello Robot และมีประสบการณ์ทำงานที่ NVIDIA Research และ Meta FAIR

บทความนี้วิเคราะห์สาเหตุที่เป็นไปได้ที่ทำให้ DreamZero มีประสิทธิภาพโดดเด่น จากหลายมิติ เช่น สถาปัตยกรรมโมเดล การกระจายตัวของข้อมูลการฝึก ขนาดของเครือข่ายหลัก ความยาวของบริบทเวลา และการสร้างวิดีโอเป็นสัญญาณกำกับเสริม

ต่อไปนี้เป็นสรุปเนื้อหาหลักของบทความ

DreamZero คืออะไร?

DreamZero เป็น “โมเดลโลก-แอคชัน” ที่ NVIDIA เสนอขึ้นมา มันดูดซับแนวคิดหลักของโมเดลโลก โดยเฉพาะการยอมรับคุณค่าของการสร้างวิดีโอต่องานหุ่นยนต์ แต่ได้ปรับปรุงที่สำคัญในการออกแบบหลัก: จุดสำคัญอยู่ที่ การสร้างแบบจำลองร่วมกันของการสร้างแอคชันและการสร้างวิดีโอ

โดยทั่วไป โมเดลโลกสามารถแบ่งออกเป็นสองประเภท:
1. โมเดลโลกแบบมีเงื่อนไขแอคชัน: เรียนรู้การแมปจากสถานะปัจจุบันและแอคชันไปยังสถานะถัดไป นั่นคือ ( x’ = f(x, a) ) เช่น V-JEPA 2 หรือโมเดลในบทความ RISE ล่าสุด
2. โมเดลโลกพลวัตผกผัน: เรียนรู้การเปลี่ยนสถานะก่อน ( x’ = f(x) ) จากนั้นเรียนรู้แอคชันผ่านโมเดลพลวัตผกผัน ( a = g(x, x’) ) เช่น DreamGen ของ NVIDIA หรือโมเดลโลกของ 1X

ในทางตรงกันข้าม DreamZero ใกล้เคียงกับโมเดลกลยุทธ์หุ่นยนต์แบบดั้งเดิมมากขึ้น แต่ในขณะเดียวกันก็ทำนายวิดีโอในอนาคต เป้าหมายการเรียนรู้สามารถสรุปได้เป็น: ( (x’, a) = f(x) ) นั่นคือภายในโมเดล จะส่งออกทั้งการทำนายสถานะในอนาคตและแอคชันที่ควรดำเนินการ ไปพร้อมๆ กัน

เมื่อเทียบกับโมเดลภาพ-ภาษา-แอคชันแบบดั้งเดิม การทำนายภาพในอนาคตที่เพิ่มเข้ามาใน DreamZero ให้สัญญาณกำกับที่อุดมสมบูรณ์ยิ่งขึ้นแก่โมเดล ซึ่งไม่เพียงแต่ระบุว่า “ควรทำอะไร” แต่ยังเปิดเผยว่า “โลกจะเปลี่ยนแปลงอย่างไร” จึงช่วยให้โมเดลเข้าใจกฎเกณฑ์ของการวิวัฒนาการของสิ่งแวดล้อมได้ลึกซึ้งยิ่งขึ้น

ประสิทธิภาพในการทดสอบมาตรฐาน

RoboArena: นี่คือการทดสอบมาตรฐานโลกจริงแบบกระจายที่สร้างขึ้นจากชุดข้อมูล Droid ผู้ประเมินใช้หุ่นยนต์และการตั้งค่าที่คล้ายกันทั่วโลก เพื่อดำเนินงานแบบเปิดตามคำสั่งภาษาธรรมชาติ จากมุมมองการกระจายตัวของข้อมูล นี่เป็นสถานการณ์ ภายในการกระจายตัว สำหรับ DreamZero เนื่องจากข้อมูลการฝึกของมันรวม Droid ไว้ด้วย แต่มันยังคงเผชิญกับความซับซ้อนของโลกจริงและความท้าทายด้านความหลากหลายของงาน การทดสอบมาตรฐานนี้ใช้การเปรียบเทียบแบบ “ต่อสู้” คล้ายกับ Chatbot Arena

MolmoSpaces: นี่คือแพลตฟอร์มการทดสอบมาตรฐานใหม่ที่มีการจำลองทางฟิสิกส์ความเที่ยงตรงสูงและสภาพแวดล้อมที่สร้างขึ้นแบบโปรแกรม MolmoSpaces-Bench มุ่งเน้นการทดสอบประสิทธิภาพภายใต้เงื่อนไขการเปลี่ยนแปลงที่ควบคุมได้หลากหลาย (เช่น การจับ การวาง การเปิดปิด และงานผสม) การทดสอบมาตรฐานนี้ยังไม่ถึงจุดอิ่มตัวของประสิทธิภาพ ช่องว่างระหว่างโมเดลต่างๆ ชัดเจน และ DreamZero แสดงผลงานที่ยอดเยี่ยมในนั้น

ข้อมูลเชิงลึกสำคัญ: การเปรียบเทียบกับ pi-0.5

การเปรียบเทียบกับโมเดล pi-0.5 ซึ่งอยู่ในอันดับที่สองในปัจจุบัน สามารถเปิดเผยปัจจัยสำคัญบางประการ

1. การกระจายตัวของข้อมูลการฝึกอาจสำคัญกว่าปริมาณข้อมูล
* pi-0.5 ใช้ข้อมูลหุ่นยนต์จริงมากกว่า 10,000 ชั่วโมง ข้อมูล VLM และข้อมูล Droid ในการฝึก
* DreamZero ฝึกโดยใช้ข้อมูล DROID หรือ AgiBot เป็นหลัก
* สิ่งที่น่าสังเกตคือ บนชุดข้อมูล AgiBot (ซึ่งไม่รวมอยู่ในข้อมูลการฝึกของ pi-0.5) DreamZero แสดงผลดีกว่า pi-0.5 อย่างมีนัยสำคัญ ในขณะที่ภายใต้การตั้งค่า DROID-Franka ที่ทั้งสองฝ่ายใช้ร่วมกัน ช่องว่างของประสิทธิภาพจะน้อยกว่ามาก

นี่ชี้ให้เห็นว่าข้อมูลหุ่นยนต์เพิ่มเติมนับหมื่นชั่วโมงอาจไม่นำไปสู่การปรับปรุงการถ่ายทอดความรู้ตามที่คาดหวัง กุญแจสำคัญอาจอยู่ที่ว่ามีการฝึกล่วงหน้าเกี่ยวกับข้อมูลหุ่นยนต์ใน “การกระจายตัวที่ถูกต้อง” หรือไม่ บล็อกล่าสุดของ Physical Intelligence ก็แสดงข้อสรุปที่คล้ายกัน: การฝึกล่วงหน้าบนข้อมูลที่สอดคล้องอย่างสูงกับการกระจายตัวของงานเป้าหมาย สามารถนำไปสู่การปรับปรุงประสิทธิภาพอย่างมาก

ดังนั้น การรวบรวมข้อมูลจำนวนมากจากหุ่นยนต์รูปแบบอื่น อาจไม่ได้ให้ผลตอบแทนสูงกว่าการใช้ข้อมูลวิดีโอมุมมองบุคคลที่หนึ่งที่มีปริมาณเพียงพอและต้นทุนต่ำ สำหรับนักวิจัยที่หวังจะฝึกโมเดลทั่วไปข้ามตัวหุ่นยนต์ นี่เป็นการค้นพบที่ควรพิจารณาอย่างลึกซึ้ง

2. เครือข่ายหลักของโมเดลและการป้อนข้อมูล
* ความแตกต่างของขนาด: DreamZero สร้างขึ้นบนพื้นฐานของโมเดลการสร้างวิดีโอ Wan2.1-I2V-14B-480P ที่มีพารามิเตอร์ 14 พันล้านตัว pi-0.5 สร้างขึ้นบนพื้นฐานของโมเดลภาพ-ภาษา PaliGemma ที่มีพารามิเตอร์ 3 พันล้านตัว ขนาดพารามิเตอร์ต่างกันเกือบ 5 เท่า
* วิธีการป้อนข้อมูล: DreamZero สามารถรับ เฟรมประวัติสูงสุด 8 เฟรม เป็นบริบท ทำให้สามารถสังเกตวิดีโอสั้นๆ ได้ pi-0.5 สามารถป้อนข้อมูล ภาพเฟรมเดียว เพื่อการตัดสินใจเท่านั้น

งานหุ่นยนต์ในโลกจริงมักมีลักษณะที่สังเกตได้บางส่วน ขึ้นอยู่กับพลวัตทางฟิสิกส์ที่ซับซ้อน และต้องเข้าใจความต่อเนื่องของเวลา ตัวอย่างเช่น การตัดสินสถานะการเคลื่อนที่ของวัตถุ การอนุมานผลลัพธ์ของแอคชัน การเข้าใจผลของความเฉื่อย เป็นต้น ด้วยภาพเฟรมเดียว โมเดลยากที่จะจับข้อมูลเหล่านี้ ในขณะที่การให้ข้อมูลหลายเฟรมต่อเนื่อง (เช่น 8 เฟรม) ทำให้โมเดลสามารถรับรู้แนวโน้มการเคลื่อนไหวและการเปลี่ยนแปลงสถานะได้ เรียนรู้กฎฟิสิกส์พื้นฐานได้ง่ายขึ้น และตัดสินใจได้อย่างมั่นคงและแม่นยำยิ่งขึ้น

DreamZero เป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์สูงถึง 14 พันล้านตัว ดังนั้น ส่วนหนึ่งของงานวิจัยจึงมุ่งเน้นไปที่วิธีการทำให้โมเดลยักษ์นี้ทำงานแบบเรียลไทม์ การทดลอง ablation ในบทความแสดงให้เห็นว่าขนาดโมเดลเป็นหนึ่งในปัจจัยสำคัญที่ส่งผลต่อประสิทธิภาพของมัน

อย่างไรก็ตาม การนำข้อมูลประวัติที่ยาวขึ้นและขยายขนาดโมเดลมักจะนำไปสู่ปัญหาความยากในการฝึกที่เพิ่มขึ้น และนำไปสู่การ overfitting ได้ง่ายขึ้นในสถานการณ์ที่มีข้อมูลจำกัด ซึ่งแตกต่างอย่างมากจากกรณีของโมเดลภาษาขนาดใหญ่ ที่ได้รับประโยชน์จากข้อมูลการฝึกจำนวนมหาศาลและแทบไม่ต้องกังวลเรื่อง overfitting โดเมนหุ่นยนต์โดยพื้นฐานแล้วอยู่ในสภาพแวดล้อมที่ขาดแคลนข้อมูลเสมอ แม้แต่ชุดข้อมูล DROID ที่ค่อนข้างใหญ่ในปัจจุบัน เมื่อเทียบกับชุดข้อมูลของโมเดลภาษาขนาดเล็กที่สุด ก็ยังเล็กกว่ามาก

จากนี้สามารถตั้งสมมติฐานได้ว่า: เป้าหมายการสร้างวิดีโอทำหน้าที่เป็น loss เสริมที่นี่ มันกำหนดข้อจำกัดเชิงโครงสร้างให้กับโมเดล DreamZero ซึ่งอาจบังคับให้โมเดลเรียนรู้โมเดลโลกภายในบางรูปแบบ เมื่อเทียบกับสัญญาณรางวัลแบบ sparse ที่ให้โดยแอคชันหุ่นยนต์ การทำนายวิดีโอให้สัญญาณกำกับที่แข็งแกร่งและหนาแน่นกว่า ซึ่งอาจช่วยให้โมเดลถ่ายทอดความรู้ไปยังสภาพแวดล้อม MolmoSpaces ที่หลากหลาย ซึ่งไม่เคยสัมผัสโดยตรงในการฝึก ได้ดีขึ้น

สรุปและมองไปข้างหน้า

จากบทความที่มีอยู่ในปัจจุบันเพียงอย่างเดียว เรายังไม่สามารถสรุปทั้งหมดได้ ตัวอย่างเช่น เราไม่สามารถทราบรายละเอียดข้อมูลทั้งหมดที่ Physical Intelligence ใช้ และในปัจจุบัน อุปกรณ์ NVIDIA GB200 ที่ใช้สำหรับการอนุมานก็ยังไม่สามารถหาได้ง่าย แต่สำหรับนักวิจัยหลายคน งานนี้ให้ข้อคิดสำคัญ: บางทีเราไม่จำเป็นต้องมีข้อมูลมหาศาลดังที่เคยคิดไว้ก่อนหน้านี้ เพื่อให้ได้ประสิทธิภาพที่แข็งแกร่งในงานหุ่นยนต์โลกจริง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23957

การทดสอบมาตรฐาน ดรีมซีโร่เทคโนโลยีหุ่นยนต์เอ็นวิเดีย โมเดลโลก

Like (0)

0 0

สงคราม AI ในเบราว์เซอร์ทวีความรุนแรง: Tabbit AI Browser เปิดให้ทดสอบสาธารณะ นิยามกระบวนทัศน์ใหม่ของการปฏิสัมพันธ์ระหว่างมนุษย์และคอมพิวเตอร์

Previous 3 hours ago

FAST-Prefill: ตัวเร่งความเร็ว FPGA สำหรับความสนใจแบบเบาบางแบบไดนามิก ทะลุข้อจำกัดการเติมล่วงหน้าของ LLM บริบทยาว เพิ่มประสิทธิภาพ 2.5 เท่า

Next 3 hours ago

ข่าวสารอุตสาหกรรม AI

Tencent Hunyuan เปิดตัว HY3D-Bench: สร้าง “ImageNet” ในวงการสร้างภาพ 3D แก้ปัญหาข้อมูลและการประเมิน

เทคโนโลยีการสร้าง 3D ในปัจจุบันมีความพร้อมใช้งานที่น่าทึ่งมาก อย่างไรก็ตาม ปัญหาสำคัญสามประการที่ยังคงกวนใจนักวิจัยในสาขานี้คือ คุณภาพข้อมูลที่ไม่สม่ำเสมอ ขาดมาตรฐานการประเมิน และก…

2026年2月6日
34000
ข่าวสารอุตสาหกรรม AI

การสร้างกราฟความรู้ที่อัปเดตตัวเอง: การใช้ LLM และ Neo4j เพื่อวิเคราะห์รายงานการประชุมอย่างชาญฉลาด

แปลงบันทึกการประชุมแบบไม่มีโครงสร้างให้เป็นกราฟความรู้ที่สามารถสืบค้นได้ และรองรับการอัปเดตแบบเพิ่มเติม — ไม่จำเป็นต้องประมวลผลทั้งหมดใหม่ทุกครั้ง บันทึกการประชุมคือเหมืองทองแห่งปั…

2026年2月3日
54000
ข่าวสารอุตสาหกรรม AI

Ali Qwen 3.5-Plus เปิดตัวครั้งใหญ่: มัลติโมดัลแบบเนทีฟ, ประสิทธิภาพเหนือชั้น, ราคาจัดหนัก, โมเดลโอเพ่นซอร์สก้าวกระโดดระดับระเบิด

ช่วงก่อนหน้านี้ ผู้ผลิตโมเดลใหญ่ๆ ต่างทยอยอัปเดตผลิตภัณฑ์ มีฟังก์ชันมากมายจนตาลาย ในขณะที่ทุกคนคิดว่ากำลังจะถึงตรุษจีน วงการ AI คงไม่มีไพ่ใหม่มาเล่นแล้ว ทันใดนั้น Alibaba Tongyi Qi…

2026年2月16日
37000
ข่าวสารอุตสาหกรรม AI

MeepleLM: ระบบประเมินเกมกระดานเสมือนจริงด้วยโมเดลภาษาขนาดใหญ่ครั้งแรกบนกรอบ MDA และโปรไฟล์ผู้เล่น

ทีม MeepleLM ส่งบทความ QbitAI | บัญชี WeChat QbitAI ผู้ประเมินประสบการณ์บอร์ดเกมจากโมเดลภาษาขนาดใหญ่มาแล้ว! ไม่เพียงแต่สามารถให้คำวิจารณ์และข้อเสนอแนะได้อย่างรวดเร็ว แต่ยังสามารถจำ…

2026年2月12日
46000
ข่าวสารอุตสาหกรรม AI

การวิเคราะห์เชิงลึกเกี่ยวกับสวิตช์ CPO ของ NVIDIA: ก้าวข้ามข้อจำกัดด้านพลังประมวลผล AI และนำการปฏิวัติการเชื่อมต่อโรงงาน AI ระดับกิกะวัตต์

เมื่อวันที่ 3 กุมภาพันธ์ 2026 NVIDIA ได้จัดสัมมนาออนไลน์ในหัวข้อ “สวิตช์ CPO (Co-Packaged Silicon Photonics) สำหรับโรงงาน AI ระดับ Gigawatt” ซึ่งทำให้เทคโนโลยี CPO กลับ…

2026年2月6日
59000

NVIDIA DreamZero ขึ้นอันดับหนึ่งในการทดสอบมาตรฐานหุ่นยนต์: โมเดลโลก-แอ็กชันทำลายขีดจำกัดประสิทธิภาพได้อย่างไร?

DreamZero คืออะไร?

ประสิทธิภาพในการทดสอบมาตรฐาน

ข้อมูลเชิงลึกสำคัญ: การเปรียบเทียบกับ pi-0.5

相关推荐

Tencent Hunyuan เปิดตัว HY3D-Bench: สร้าง “ImageNet” ในวงการสร้างภาพ 3D แก้ปัญหาข้อมูลและการประเมิน

การสร้างกราฟความรู้ที่อัปเดตตัวเอง: การใช้ LLM และ Neo4j เพื่อวิเคราะห์รายงานการประชุมอย่างชาญฉลาด

MeepleLM: ระบบประเมินเกมกระดานเสมือนจริงด้วยโมเดลภาษาขนาดใหญ่ครั้งแรกบนกรอบ MDA และโปรไฟล์ผู้เล่น