RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

ในการพัฒนาปัญญาที่มีตัวตน (Embodied AI) โมเดลวิสัยทัศน์-ภาษา-การกระทำ (Vision-Language-Action: VLA) ได้กลายเป็นกรอบหลักสำหรับงานการจัดการทั่วไป อย่างไรก็ตาม เมื่อเผชิญกับสถานการณ์ที่ซับซ้อน เช่น การวางแผนระยะยาว การจัดการวัตถุอ่อนนุ่ม การประสานงานแขนคู่ที่ละเอียดอ่อน และการโต้ตอบแบบไดนามิก โมเดล VLA ยังคงเผชิญกับความท้าทายพื้นฐานสองประการ:

  1. ปัญหาการสะสมข้อผิดพลาดในลำดับยาวที่เกิดจากการเรียนรู้แบบเลียนแบบ (Imitation Learning) ในกระบวนการให้เหตุผล
  2. ต้นทุนของการเรียนรู้แบบเสริมแรง (Reinforcement Learning) บนหุ่นยนต์จริงที่สูง และยากต่อการปรับใช้ในระดับกว้าง

เพื่อแก้ไขความท้าทายเหล่านี้ ทีม OpenDriveLab นำโดยศาสตราจารย์ Li Hongyang จากมหาวิทยาลัยฮ่องกง ได้เสนอวิธีการ RISE ขึ้นมา แนวคิดหลักคือ การสร้างโมเดลโลก (World Model) แบบผสมผสานและหลายมุมมอง เพื่อให้หุ่นยนต์เรียนรู้แบบเสริมแรงทั้งหมดในพื้นที่เสมือน “จินตนาการ” จึงไม่จำเป็นต้องพึ่งพาการโต้ตอบกับหุ่นยนต์จริงจำนวนมาก วิธีนี้ทำให้เกิดการปรับปรุงประสิทธิภาพแบบก้าวกระโดดในหลายงานที่ซับซ้อนและยาวนาน โดยอัตราความสำเร็จของบางงานเพิ่มขึ้นมากกว่า 45% เมื่อเทียบกับเบสไลน์ที่ดีที่สุดที่มีอยู่ในปัจจุบัน

พันธนาการสามประการของการนำ VLA แบบดั้งเดิมไปปฏิบัติจริง

โมเดล VLA ในการนำไปปฏิบัติจริง ถูกจำกัดหลักๆ ด้วยข้อบกพร่องโดยธรรมชาติของการเรียนรู้แบบเลียนแบบ ข้อจำกัดในทางปฏิบัติของการเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริง และข้อจำกัดทางเทคนิคของโมเดลโลกที่มีอยู่

ประการแรก อคติจากการเปิดเผย (Exposure Bias) ในการเรียนรู้แบบเลียนแบบ
โมเดล VLA กระแสหลักในปัจจุบันพึ่งพาข้อมูลการสาธิตจากผู้เชี่ยวชาญในการฝึกฝน โดยพื้นฐานแล้วเรียนรู้เพียง “เส้นทางสู่ความสำเร็จ” สิ่งนี้นำไปสู่:
* โมเดลไม่เคยเห็นสถานะความล้มเหลวมาก่อน จึงขาดความสามารถในการแก้ไขข้อผิดพลาด
* ในงานระยะยาว ข้อผิดพลาดเล็กน้อยในตอนเริ่มต้นจะขยายใหญ่ขึ้นตามขั้นตอนการดำเนินการ สุดท้ายนำไปสู่ความล้มเหลวของงาน

ประการที่สอง ปัญหาจริงของการเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริง
ในทางทฤษฎี การเรียนรู้แบบเสริมแรงสามารถชดเชยข้อบกพร่องของการเรียนรู้แบบเลียนแบบได้ แต่ในโลกกายภาพจริงกลับเผชิญกับข้อจำกัดสามประการ:
* ประสิทธิภาพตัวอย่างต่ำ: ต้องการข้อมูลการโต้ตอบจำนวนมหาศาล วงจรการฝึกยาวนาน
* ความเสี่ยงด้านความปลอดภัยสูง: การดำเนินการแบบสำรวจ (Exploration) อาจทำให้เกิดการสึกหรอหรือเสียหายของฮาร์ดแวร์หุ่นยนต์ได้ง่าย
* ต้นทุนการรีเซ็ตสูง: หลังจากงานล้มเหลวแต่ละครั้ง จำเป็นต้องมีการแทรกแซงด้วยมือเพื่อคืนสภาพแวดล้อม ซึ่งไม่มีประสิทธิภาพ

ประการที่สาม ข้อจำกัดความสามารถของโมเดลโลกที่มีอยู่
เพื่อเชื่อมช่องว่างระหว่างโลกจริงและเสมือน วงการวิชาการเคยพยายามใช้โมเดลโลกแบบกำเนิด (Generative World Model) เพื่อจำลองสภาพแวดล้อม แต่โมเดลประเภทนี้มักยากที่จะรับประกัน ความสามารถในการควบคุมการกระทำ และ ความสอดคล้องของการทำนายระยะยาว พร้อมกัน มักเกิดภาพบิดเบือนหรือขัดกับกฎฟิสิกส์ ดังนั้นจึงไม่สามารถใช้เป็นสภาพแวดล้อมการฝึกที่เชื่อถือได้สำหรับการเรียนรู้แบบเสริมแรง

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%
ภาพ: ภาพรวมของเฟรมเวิร์ก RISE (a) การเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริงแบบดั้งเดิมถูกจำกัดด้วยต้นทุนฮาร์ดแวร์และการรีเซ็ต (b) RISE เรียนรู้แบบออนไลน์ในโมเดลโลกแบบผสมผสาน (c) บรรลุประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญในงานหุ่นยนต์จริง

แนวทางแก้ไขของ RISE: โมเดลโลกแบบผสมผสานและการวิวัฒนาการตนเองในพื้นที่จินตนาการ

นวัตกรรมหลักของ RISE อยู่ที่การย้ายการโต้ตอบกับสภาพแวดล้อมทางกายภาพทั้งหมดไปยัง “พื้นที่จินตนาการ” ที่สร้างขึ้นโดย โมเดลโลกแบบผสมผสาน ผ่านการออกแบบที่แยกส่วนระหว่างจริงและเสมือน (Virtual-Real Decoupling) ซึ่งแก้ไขทั้งปัญหาการจำลองความเที่ยงตรงสูงของโมเดลโลก และสร้างวงจรปิดของการวิวัฒนานโยบายตนเองที่มีประสิทธิภาพ

1. โมเดลโลกแบบผสมผสาน: การออกแบบแบบแยกส่วน คำนึงถึงทั้งความแม่นยำในการจำลองและความสามารถในการประเมิน
แตกต่างจากโมเดลเดี่ยวแบบดั้งเดิม RISE แยกโมเดลโลกออกเป็นสองโมดูลที่ได้รับการปรับให้เหมาะสมอย่างอิสระ:
* โมเดลพลวัตที่ควบคุมได้ (Controllable Dynamics Model): ทำหน้าที่เป็น “ตัวจำลอง” มุ่งเน้นการจำลองการเปลี่ยนแปลงสถานะภาพที่เกิดจากการกระทำของหุ่นยนต์ด้วยความเที่ยงตรงสูง รับประกันการจัดตำแหน่งที่สูงระหว่างคำสั่งการกระทำและการตอบรับภาพ
* โมเดลมูลค่าความก้าวหน้า (Progress Value Model): ทำหน้าที่เป็น “ผู้ตัดสิน” รับผิดชอบในการประเมินมูลค่าในแต่ละขั้นของเส้นทางจินตนาการ มันผสมผสานการประมาณความก้าวหน้าและการเรียนรู้ความแตกต่างเชิงเวลา (Temporal Difference Learning) สามารถให้สัญญาณรางวัลที่หนาแน่นสำหรับงานระยะยาว และมีความไวต่อความล้มเหลวเล็กน้อย

โมดูลทั้งสองได้รับการฝึกฝนโดยใช้ข้อมูลที่รวมทั้งกรณีความสำเร็จและความล้มเหลว เพื่อป้องกันไม่ให้โมเดลเกิดการฟิตเกิน (Overfitting)

2. วงจรวิวัฒนาการตนเองในพื้นที่จินตนาการ: สามขั้นตอนเพื่อการวนซ้ำปรับปรุงนโยบายโดยไม่ใช้หุ่นยนต์จริง
ใน “กระบะทรายทางความคิด” ที่มีความเที่ยงตรงสูงที่สร้างขึ้น RISE ทำงานด้วยวงจรปิดการเรียนรู้แบบเสริมแรงแบบออนไลน์ทั้งหมด:
* ขั้นตอนที่หนึ่ง: การอนุมาน (Rollout) นโยบาย VLA โต้ตอบกับโมเดลพลวัต สร้างลำดับการทำนายภาพของเส้นทางการกระทำที่หลากหลายในอนาคตตามสถานะปัจจุบัน
* ขั้นตอนที่สอง: การประเมิน (Evaluation) โมเดลมูลค่าความก้าวหน้าประเมินคะแนนเส้นทางจินตนาการทั้งหมด แยกแยะเส้นทางการกระทำที่มีมูลค่าสูง (สำเร็จ) และต่ำ (ล้มเหลว)
* ขั้นตอนที่สาม: การฝึก (Training) ใช้ผลการประเมิน อัปเดตนโยบาย VLA ผ่านเป้าหมายการจับคู่โฟลว์ (Flow Matching) ทำให้มันเสริมสร้างเส้นทางสู่ความสำเร็จอย่างต่อเนื่อง หลีกเลี่ยงเส้นทางสู่ความล้มเหลว และบรรลุการวิวัฒนาการตนเอง

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

การวิเคราะห์โครงสร้าง RISE: การแยกส่วนจริง-เสมือน ทำให้จินตนาการสอดคล้องกับกฎฟิสิกส์

โครงสร้างของ RISE ผ่านการแยกส่วนและการจัดตำแหน่ง ทำให้พื้นที่จินตนาการเสมือนเข้าใกล้โลกกายภาพจริงอย่างไม่จำกัด ตรรกะหลักคือ การแยกส่วนโมเดลสร้างกระบะทราย การวนซ้ำเส้นทางปรับนโยบายให้ดีขึ้น

การออกแบบแบบแยกส่วนของโมเดลโลกแบบผสมผสาน แก้ไขปัญหาที่การจำลองและการประเมินไม่สามารถได้มาพร้อมกันจากรากฐาน และวงจรปิดการวิวัฒนาการตนเองในพื้นที่จินตนาการ ทำให้การลองผิดลองถูกของการเรียนรู้แบบเสริมแรงแยกออกจากหุ่นยนต์จริงโดยสมบูรณ์: โมเดลสร้างเส้นทางที่หลากหลายจากสถานะเริ่มต้นเดียวกัน และทำให้เกิดการปรับให้ดีขึ้นผ่าน “การเล่นกับตนเอง” วิธีนี้ไม่เพียงหลีกเลี่ยงต้นทุนและความเสี่ยงของการลองผิดลองถูกบนหุ่นยนต์จริง แต่ยังทำให้โมเดลเรียนรู้ความสามารถสำคัญในการฟื้นตัวจากความล้มเหลว

การทดสอบยืนยัน: ประสิทธิภาพพุ่งสูงขึ้น ความสามารถในการปรับใช้ทั่วไปแข็งแกร่ง

ทีมวิจัยได้ประเมิน RISE อย่างเป็นระบบในสามงานระยะยาวบนหุ่นยนต์จริงที่มีความยากสูง: การคัดแยกบล็อกไดนามิก การบรรจุกระเป๋าเป้ (วัตถุอ่อนนุ่ม) และการปิดกล่องกระดาษ (การประสานงานแขนคู่ที่ละเอียดอ่อน)

ประสิทธิภาพเหนือกว่าเบสไลน์ที่มีอยู่อย่างมาก
เมื่อเทียบกับเบสไลน์ชั้นนำเช่น π₀.₅, RECAP, DSRL RISE บรรลุการเพิ่มขึ้นของอัตราความสำเร็จอย่างมากในทุกงาน:
* การคัดแยกบล็อกไดนามิก: อัตราความสำเร็จเพิ่มจาก 50% เป็น 85%
* การบรรจุกระเป๋าเป้: อัตราความสำเร็จเพิ่มจาก 30% เป็น 85% เพิ่มขึ้น 45%
* การปิดกล่องกระดาษ: อัตราความสำเร็จสูงถึง 95%

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

การยืนยันความจำเป็นของส่วนประกอบ
การทดสอบแบบตัดออก (Ablation Study) แสดงให้เห็นว่าโมดูลหลักทุกโมดูลของ RISE เป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพ การลบส่วนประกอบใดๆ ออกจะทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%
RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

  • หลังจากลบ Task-Centric Batching ออก ความสามารถในการควบคุมการกระทำของโมเดลพลวัตลดลงอย่างมีนัยสำคัญ ส่งผลให้อัตราการทำงานสำเร็จลดลง
  • หลังจากลบ TD Learning ออก โมเดลมูลค่ามีความยากที่จะระบุสถานะความล้มเหลวเล็กน้อยได้อย่างเฉียบคม ทำให้การปรับนโยบายให้ดีขึ้นสูญเสียทิศทางที่ชัดเจน
  • เมื่อแยกออกจากการอัปเดตการกระทำออนไลน์และสถานะออนไลน์ โมเดลไม่สามารถก้าวข้ามข้อจำกัดการกระจายของชุดข้อมูลออฟไลน์ได้ ส่งผลให้ความสามารถในการปรับใช้ทั่วไปลดลงอย่างมาก

การปรับใช้ทั่วไปและการต้านทานการรบกวน: เหนือกว่าการเลียนแบบเชิงกลไก

นโยบายที่ฝึกโดย RISE ไม่ได้คัดลอกข้อมูลผู้เชี่ยวชาญเชิงกลไกอีกต่อไป แต่แสดงให้เห็นพฤติกรรมอัจฉริยะที่ฟื้นตัวจากความล้มเหลวที่ไม่คาดคิดได้ด้วยตนเอง:

  • การฟื้นตัวจากการรบกวน: เมื่อการดำเนินงานถูกขัดจังหวะจากการรบกวนของมนุษย์ (เช่น วัตถุถูกผลักออกจากตำแหน่งเดิม การจับลื่นไถลโดยไม่คาดคิด) โมเดลสามารถปรับการกระทำในภายหลังได้อย่างแข็งขัน ฟื้นตัวจากสถานะความล้มเหลว และทำงานให้สำเร็จในที่สุด

  • การปรับใช้ทั่วไปตามตำแหน่ง: แม้ว่าตำแหน่งเริ่มต้นของวัตถุที่ถูกจัดการ (เช่น เสื้อผ้าที่จะพับ กระเป๋าเป้) จะเปลี่ยนแปลง โมเดลยังคงสามารถทำงานได้อย่างแม่นยำ โดยไม่จำเป็นต้องฝึกใหม่สำหรับตำแหน่งใหม่

คุณภาพการสร้าง: การสร้างใหม่กฎฟิสิกส์ด้วยความเที่ยงตรงสูง

ในการประเมินเชิงปริมาณและเชิงคุณภาพของคุณภาพการสร้างของโมเดล โมเดลพลวัตของ RISE ทำได้ดีกว่าโมเดลเบสไลน์เช่น Genie Envisioner, Cosmos:

  • การประเมินเชิงปริมาณ: บรรลุผลที่ดีที่สุดในทั้งสองตัวชี้วัดคือ Fréchet Video Distance (FVD) และ Endpoint Error (EPE) แสดงว่าความแม่นยำในการสร้างวิดีโอและความสามารถในการติดตามการกระทำดีกว่า

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

  • การประเมินเชิงคุณภาพ: สามารถสร้างลำดับเฟรมในอนาคตหลายมุมมองที่ชัดเจนและสอดคล้องกับกฎฟิสิกส์ หลีกเลี่ยงปัญหาความพร่ามัว การเคลื่อนที่ทันทีของวัตถุ หรือการไม่สอดคล้องของการกระทำ ประสิทธิภาพนี้ยังคงสอดคล้องกันในหลายชุดข้อมูลขนาดใหญ่ เช่น Bridge, Galaxea, Agibot World

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

โมเดลพลวัตที่เสนอสามารถสังเคราะห์ลำดับวิดีโอหลายมุมมองที่ต่อเนื่องกันด้วยความเที่ยงตรงทางภาพสูง เป็นพื้นฐานที่มั่นคงสำหรับการเรียนรู้แบบเสริมแรง วิดีโอด้านล่างจัดเรียงตามลำดับจากบนลงล่าง:

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

โมเดลสร้างเฟรมในอนาคตที่ชัดเจนและสอดคล้องกับฟิสิกส์ ในขณะที่โมเดลเบสไลน์มักปรากฏความพร่ามัวหรือการเคลื่อนที่ทันทีของวัตถุที่ไม่สอดคล้องกับกฎฟิสิกส์


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/26176

Like (0)
Previous 15 hours ago
Next 8 hours ago

相关推荐