RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

8 hours ago • ข่าวสารอุตสาหกรรม AI • 23 views

ในการพัฒนาปัญญาที่มีตัวตน (Embodied AI) โมเดลวิสัยทัศน์-ภาษา-การกระทำ (Vision-Language-Action: VLA) ได้กลายเป็นกรอบหลักสำหรับงานการจัดการทั่วไป อย่างไรก็ตาม เมื่อเผชิญกับสถานการณ์ที่ซับซ้อน เช่น การวางแผนระยะยาว การจัดการวัตถุอ่อนนุ่ม การประสานงานแขนคู่ที่ละเอียดอ่อน และการโต้ตอบแบบไดนามิก โมเดล VLA ยังคงเผชิญกับความท้าทายพื้นฐานสองประการ:

ปัญหาการสะสมข้อผิดพลาดในลำดับยาวที่เกิดจากการเรียนรู้แบบเลียนแบบ (Imitation Learning) ในกระบวนการให้เหตุผล
ต้นทุนของการเรียนรู้แบบเสริมแรง (Reinforcement Learning) บนหุ่นยนต์จริงที่สูง และยากต่อการปรับใช้ในระดับกว้าง

เพื่อแก้ไขความท้าทายเหล่านี้ ทีม OpenDriveLab นำโดยศาสตราจารย์ Li Hongyang จากมหาวิทยาลัยฮ่องกง ได้เสนอวิธีการ RISE ขึ้นมา แนวคิดหลักคือ การสร้างโมเดลโลก (World Model) แบบผสมผสานและหลายมุมมอง เพื่อให้หุ่นยนต์เรียนรู้แบบเสริมแรงทั้งหมดในพื้นที่เสมือน “จินตนาการ” จึงไม่จำเป็นต้องพึ่งพาการโต้ตอบกับหุ่นยนต์จริงจำนวนมาก วิธีนี้ทำให้เกิดการปรับปรุงประสิทธิภาพแบบก้าวกระโดดในหลายงานที่ซับซ้อนและยาวนาน โดยอัตราความสำเร็จของบางงานเพิ่มขึ้นมากกว่า 45% เมื่อเทียบกับเบสไลน์ที่ดีที่สุดที่มีอยู่ในปัจจุบัน

พันธนาการสามประการของการนำ VLA แบบดั้งเดิมไปปฏิบัติจริง

โมเดล VLA ในการนำไปปฏิบัติจริง ถูกจำกัดหลักๆ ด้วยข้อบกพร่องโดยธรรมชาติของการเรียนรู้แบบเลียนแบบ ข้อจำกัดในทางปฏิบัติของการเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริง และข้อจำกัดทางเทคนิคของโมเดลโลกที่มีอยู่

ประการแรก อคติจากการเปิดเผย (Exposure Bias) ในการเรียนรู้แบบเลียนแบบ
โมเดล VLA กระแสหลักในปัจจุบันพึ่งพาข้อมูลการสาธิตจากผู้เชี่ยวชาญในการฝึกฝน โดยพื้นฐานแล้วเรียนรู้เพียง “เส้นทางสู่ความสำเร็จ” สิ่งนี้นำไปสู่:
* โมเดลไม่เคยเห็นสถานะความล้มเหลวมาก่อน จึงขาดความสามารถในการแก้ไขข้อผิดพลาด
* ในงานระยะยาว ข้อผิดพลาดเล็กน้อยในตอนเริ่มต้นจะขยายใหญ่ขึ้นตามขั้นตอนการดำเนินการ สุดท้ายนำไปสู่ความล้มเหลวของงาน

ประการที่สอง ปัญหาจริงของการเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริง
ในทางทฤษฎี การเรียนรู้แบบเสริมแรงสามารถชดเชยข้อบกพร่องของการเรียนรู้แบบเลียนแบบได้ แต่ในโลกกายภาพจริงกลับเผชิญกับข้อจำกัดสามประการ:
* ประสิทธิภาพตัวอย่างต่ำ: ต้องการข้อมูลการโต้ตอบจำนวนมหาศาล วงจรการฝึกยาวนาน
* ความเสี่ยงด้านความปลอดภัยสูง: การดำเนินการแบบสำรวจ (Exploration) อาจทำให้เกิดการสึกหรอหรือเสียหายของฮาร์ดแวร์หุ่นยนต์ได้ง่าย
* ต้นทุนการรีเซ็ตสูง: หลังจากงานล้มเหลวแต่ละครั้ง จำเป็นต้องมีการแทรกแซงด้วยมือเพื่อคืนสภาพแวดล้อม ซึ่งไม่มีประสิทธิภาพ

ประการที่สาม ข้อจำกัดความสามารถของโมเดลโลกที่มีอยู่
เพื่อเชื่อมช่องว่างระหว่างโลกจริงและเสมือน วงการวิชาการเคยพยายามใช้โมเดลโลกแบบกำเนิด (Generative World Model) เพื่อจำลองสภาพแวดล้อม แต่โมเดลประเภทนี้มักยากที่จะรับประกัน ความสามารถในการควบคุมการกระทำ และ ความสอดคล้องของการทำนายระยะยาว พร้อมกัน มักเกิดภาพบิดเบือนหรือขัดกับกฎฟิสิกส์ ดังนั้นจึงไม่สามารถใช้เป็นสภาพแวดล้อมการฝึกที่เชื่อถือได้สำหรับการเรียนรู้แบบเสริมแรง

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%
ภาพ: ภาพรวมของเฟรมเวิร์ก RISE (a) การเรียนรู้แบบเสริมแรงบนหุ่นยนต์จริงแบบดั้งเดิมถูกจำกัดด้วยต้นทุนฮาร์ดแวร์และการรีเซ็ต (b) RISE เรียนรู้แบบออนไลน์ในโมเดลโลกแบบผสมผสาน (c) บรรลุประสิทธิภาพที่เพิ่มขึ้นอย่างมีนัยสำคัญในงานหุ่นยนต์จริง

แนวทางแก้ไขของ RISE: โมเดลโลกแบบผสมผสานและการวิวัฒนาการตนเองในพื้นที่จินตนาการ

นวัตกรรมหลักของ RISE อยู่ที่การย้ายการโต้ตอบกับสภาพแวดล้อมทางกายภาพทั้งหมดไปยัง “พื้นที่จินตนาการ” ที่สร้างขึ้นโดย โมเดลโลกแบบผสมผสาน ผ่านการออกแบบที่แยกส่วนระหว่างจริงและเสมือน (Virtual-Real Decoupling) ซึ่งแก้ไขทั้งปัญหาการจำลองความเที่ยงตรงสูงของโมเดลโลก และสร้างวงจรปิดของการวิวัฒนานโยบายตนเองที่มีประสิทธิภาพ

1. โมเดลโลกแบบผสมผสาน: การออกแบบแบบแยกส่วน คำนึงถึงทั้งความแม่นยำในการจำลองและความสามารถในการประเมิน
แตกต่างจากโมเดลเดี่ยวแบบดั้งเดิม RISE แยกโมเดลโลกออกเป็นสองโมดูลที่ได้รับการปรับให้เหมาะสมอย่างอิสระ:
* โมเดลพลวัตที่ควบคุมได้ (Controllable Dynamics Model): ทำหน้าที่เป็น “ตัวจำลอง” มุ่งเน้นการจำลองการเปลี่ยนแปลงสถานะภาพที่เกิดจากการกระทำของหุ่นยนต์ด้วยความเที่ยงตรงสูง รับประกันการจัดตำแหน่งที่สูงระหว่างคำสั่งการกระทำและการตอบรับภาพ
* โมเดลมูลค่าความก้าวหน้า (Progress Value Model): ทำหน้าที่เป็น “ผู้ตัดสิน” รับผิดชอบในการประเมินมูลค่าในแต่ละขั้นของเส้นทางจินตนาการ มันผสมผสานการประมาณความก้าวหน้าและการเรียนรู้ความแตกต่างเชิงเวลา (Temporal Difference Learning) สามารถให้สัญญาณรางวัลที่หนาแน่นสำหรับงานระยะยาว และมีความไวต่อความล้มเหลวเล็กน้อย

โมดูลทั้งสองได้รับการฝึกฝนโดยใช้ข้อมูลที่รวมทั้งกรณีความสำเร็จและความล้มเหลว เพื่อป้องกันไม่ให้โมเดลเกิดการฟิตเกิน (Overfitting)

2. วงจรวิวัฒนาการตนเองในพื้นที่จินตนาการ: สามขั้นตอนเพื่อการวนซ้ำปรับปรุงนโยบายโดยไม่ใช้หุ่นยนต์จริง
ใน “กระบะทรายทางความคิด” ที่มีความเที่ยงตรงสูงที่สร้างขึ้น RISE ทำงานด้วยวงจรปิดการเรียนรู้แบบเสริมแรงแบบออนไลน์ทั้งหมด:
* ขั้นตอนที่หนึ่ง: การอนุมาน (Rollout) นโยบาย VLA โต้ตอบกับโมเดลพลวัต สร้างลำดับการทำนายภาพของเส้นทางการกระทำที่หลากหลายในอนาคตตามสถานะปัจจุบัน
* ขั้นตอนที่สอง: การประเมิน (Evaluation) โมเดลมูลค่าความก้าวหน้าประเมินคะแนนเส้นทางจินตนาการทั้งหมด แยกแยะเส้นทางการกระทำที่มีมูลค่าสูง (สำเร็จ) และต่ำ (ล้มเหลว)
* ขั้นตอนที่สาม: การฝึก (Training) ใช้ผลการประเมิน อัปเดตนโยบาย VLA ผ่านเป้าหมายการจับคู่โฟลว์ (Flow Matching) ทำให้มันเสริมสร้างเส้นทางสู่ความสำเร็จอย่างต่อเนื่อง หลีกเลี่ยงเส้นทางสู่ความล้มเหลว และบรรลุการวิวัฒนาการตนเอง

RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%

การวิเคราะห์โครงสร้าง RISE: การแยกส่วนจริง-เสมือน ทำให้จินตนาการสอดคล้องกับกฎฟิสิกส์

โครงสร้างของ RISE ผ่านการแยกส่วนและการจัดตำแหน่ง ทำให้พื้นที่จินตนาการเสมือนเข้าใกล้โลกกายภาพจริงอย่างไม่จำกัด ตรรกะหลักคือ การแยกส่วนโมเดลสร้างกระบะทราย การวนซ้ำเส้นทางปรับนโยบายให้ดีขึ้น

การออกแบบแบบแยกส่วนของโมเดลโลกแบบผสมผสาน แก้ไขปัญหาที่การจำลองและการประเมินไม่สามารถได้มาพร้อมกันจากรากฐาน และวงจรปิดการวิวัฒนาการตนเองในพื้นที่จินตนาการ ทำให้การลองผิดลองถูกของการเรียนรู้แบบเสริมแรงแยกออกจากหุ่นยนต์จริงโดยสมบูรณ์: โมเดลสร้างเส้นทางที่หลากหลายจากสถานะเริ่มต้นเดียวกัน และทำให้เกิดการปรับให้ดีขึ้นผ่าน “การเล่นกับตนเอง” วิธีนี้ไม่เพียงหลีกเลี่ยงต้นทุนและความเสี่ยงของการลองผิดลองถูกบนหุ่นยนต์จริง แต่ยังทำให้โมเดลเรียนรู้ความสามารถสำคัญในการฟื้นตัวจากความล้มเหลว

การทดสอบยืนยัน: ประสิทธิภาพพุ่งสูงขึ้น ความสามารถในการปรับใช้ทั่วไปแข็งแกร่ง

ทีมวิจัยได้ประเมิน RISE อย่างเป็นระบบในสามงานระยะยาวบนหุ่นยนต์จริงที่มีความยากสูง: การคัดแยกบล็อกไดนามิก การบรรจุกระเป๋าเป้ (วัตถุอ่อนนุ่ม) และการปิดกล่องกระดาษ (การประสานงานแขนคู่ที่ละเอียดอ่อน)

ประสิทธิภาพเหนือกว่าเบสไลน์ที่มีอยู่อย่างมาก
เมื่อเทียบกับเบสไลน์ชั้นนำเช่น π₀.₅, RECAP, DSRL RISE บรรลุการเพิ่มขึ้นของอัตราความสำเร็จอย่างมากในทุกงาน:
* การคัดแยกบล็อกไดนามิก: อัตราความสำเร็จเพิ่มจาก 50% เป็น 85%
* การบรรจุกระเป๋าเป้: อัตราความสำเร็จเพิ่มจาก 30% เป็น 85% เพิ่มขึ้น 45%
* การปิดกล่องกระดาษ: อัตราความสำเร็จสูงถึง 95%

การยืนยันความจำเป็นของส่วนประกอบ
การทดสอบแบบตัดออก (Ablation Study) แสดงให้เห็นว่าโมดูลหลักทุกโมดูลของ RISE เป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพ การลบส่วนประกอบใดๆ ออกจะทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ

หลังจากลบ Task-Centric Batching ออก ความสามารถในการควบคุมการกระทำของโมเดลพลวัตลดลงอย่างมีนัยสำคัญ ส่งผลให้อัตราการทำงานสำเร็จลดลง
หลังจากลบ TD Learning ออก โมเดลมูลค่ามีความยากที่จะระบุสถานะความล้มเหลวเล็กน้อยได้อย่างเฉียบคม ทำให้การปรับนโยบายให้ดีขึ้นสูญเสียทิศทางที่ชัดเจน
เมื่อแยกออกจากการอัปเดตการกระทำออนไลน์และสถานะออนไลน์ โมเดลไม่สามารถก้าวข้ามข้อจำกัดการกระจายของชุดข้อมูลออฟไลน์ได้ ส่งผลให้ความสามารถในการปรับใช้ทั่วไปลดลงอย่างมาก

การปรับใช้ทั่วไปและการต้านทานการรบกวน: เหนือกว่าการเลียนแบบเชิงกลไก

นโยบายที่ฝึกโดย RISE ไม่ได้คัดลอกข้อมูลผู้เชี่ยวชาญเชิงกลไกอีกต่อไป แต่แสดงให้เห็นพฤติกรรมอัจฉริยะที่ฟื้นตัวจากความล้มเหลวที่ไม่คาดคิดได้ด้วยตนเอง:

การฟื้นตัวจากการรบกวน: เมื่อการดำเนินงานถูกขัดจังหวะจากการรบกวนของมนุษย์ (เช่น วัตถุถูกผลักออกจากตำแหน่งเดิม การจับลื่นไถลโดยไม่คาดคิด) โมเดลสามารถปรับการกระทำในภายหลังได้อย่างแข็งขัน ฟื้นตัวจากสถานะความล้มเหลว และทำงานให้สำเร็จในที่สุด

การปรับใช้ทั่วไปตามตำแหน่ง: แม้ว่าตำแหน่งเริ่มต้นของวัตถุที่ถูกจัดการ (เช่น เสื้อผ้าที่จะพับ กระเป๋าเป้) จะเปลี่ยนแปลง โมเดลยังคงสามารถทำงานได้อย่างแม่นยำ โดยไม่จำเป็นต้องฝึกใหม่สำหรับตำแหน่งใหม่

คุณภาพการสร้าง: การสร้างใหม่กฎฟิสิกส์ด้วยความเที่ยงตรงสูง

ในการประเมินเชิงปริมาณและเชิงคุณภาพของคุณภาพการสร้างของโมเดล โมเดลพลวัตของ RISE ทำได้ดีกว่าโมเดลเบสไลน์เช่น Genie Envisioner, Cosmos:

การประเมินเชิงปริมาณ: บรรลุผลที่ดีที่สุดในทั้งสองตัวชี้วัดคือ Fréchet Video Distance (FVD) และ Endpoint Error (EPE) แสดงว่าความแม่นยำในการสร้างวิดีโอและความสามารถในการติดตามการกระทำดีกว่า

การประเมินเชิงคุณภาพ: สามารถสร้างลำดับเฟรมในอนาคตหลายมุมมองที่ชัดเจนและสอดคล้องกับกฎฟิสิกส์ หลีกเลี่ยงปัญหาความพร่ามัว การเคลื่อนที่ทันทีของวัตถุ หรือการไม่สอดคล้องของการกระทำ ประสิทธิภาพนี้ยังคงสอดคล้องกันในหลายชุดข้อมูลขนาดใหญ่ เช่น Bridge, Galaxea, Agibot World

โมเดลพลวัตที่เสนอสามารถสังเคราะห์ลำดับวิดีโอหลายมุมมองที่ต่อเนื่องกันด้วยความเที่ยงตรงทางภาพสูง เป็นพื้นฐานที่มั่นคงสำหรับการเรียนรู้แบบเสริมแรง วิดีโอด้านล่างจัดเรียงตามลำดับจากบนลงล่าง:

โมเดลสร้างเฟรมในอนาคตที่ชัดเจนและสอดคล้องกับฟิสิกส์ ในขณะที่โมเดลเบสไลน์มักปรากฏความพร่ามัวหรือการเคลื่อนที่ทันทีของวัตถุที่ไม่สอดคล้องกับกฎฟิสิกส์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/26176

การทำงานของหุ่นยนต์การเรียนรู้แบบเสริมกำลัง ปัญญาประดิษฐ์แบบฝังตัว โมเดล VLA โมเดลโลก

Like (0)

0 0

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

Previous 15 hours ago

อาลีบาบาปล่อยแพลตฟอร์มเอเจนต์ AI “วูคง” อย่างเป็นทางการ: แอปอิสระตัวแรกของ DingTalk ในรอบ 11 ปี เปิดการปฏิวัติการทำงานระดับองค์กรด้วย AI แบบเนทีฟ

Next 8 hours ago

ข่าวสารอุตสาหกรรม AI

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด

คำสำคัญ: การหาปริมาณแบบไตรภาค การทำให้เบาบางแบบละเอียด โครงสร้างการเบาบาง 3:4 กับดักน้ำหนัก ซินแนปส์ตกค้างแบบแอนนีล การนำโมเดลภาษาขนาดใหญ่ (LLM) ไปใช้งานกำลังเผชิญกับความขัดแย้งพื้…

2026年2月16日
90000
Meta AI โมเดลใหญ่ Avocado เลื่อนเปิดตัว: ประสิทธิภาพไม่เป็นไปตามคาด เคยมีการอภิปรายภายในเรื่องการอนุญาตให้ใช้ Google Gemini

แผนงาน AI ของ Meta ถูกเบรกกะทันหัน จากรายงานของสื่อหลายแห่ง เช่น The New York Times, Reuters, และ Bloomberg โมเดลพื้นฐานขนาดใหญ่รุ่นใหม่ Avocado (อะโวคาโด) ที่ Meta กำลังพัฒนาอยู่ …

ข่าวสารอุตสาหกรรม AI 3 days ago
68000
ข่าวสารอุตสาหกรรม AI

Typeless AI คีย์บอร์ดเสียง ทดสอบจริง: ค่าใช้จ่ายรายเดือนสูงกว่า ChatGPT Plus ทำไมผู้ใช้ 100,000 คนถึงยอมจ่าย?

ค่าสมัครสมาชิกรายเดือนเกิน 200 หยวน ราคาสูงกว่า ChatGPT Plus โดยตรง แต่ฟังก์ชันกลับมีเพียงอย่างเดียวคือการป้อนเสียง ฟังดูเหมือน “ภาษีคนโง่” ใช่ไหม? แต่ได้ยินมาว่ามีผู้ใ…

2026年2月9日
127000
ข่าวสารอุตสาหกรรม AI

Qwen3.5 เปิดตัวอย่างยิ่งใหญ่: พารามิเตอร์ 397 พันล้าน ประสิทธิภาพเหนือโมเดลล้านล้านพารามิเตอร์, การประมวลผลการอนุมานเพิ่มขึ้น 19 เท่า, เกิดมาตรฐานใหม่ของ AI แบบโอเพนซอร์ส

智東西2月16日報導，剛剛，Qwen3.5正式發佈並開源，在多模態理解、複雜推理、編程、Agent智能體等幾大能力上領先同級開源模型，多項基準測試成績媲美甚至超越GPT-5.2、Gemini 3 Pro等閉源第一梯隊模型。 Qwen3.5-Plus總參數為3970億，激活參數僅170億，其性能超越了萬億參數的Qwen3-Max模型。在部署上，其顯存佔用降低了…

2026年2月16日
98000
ข่าวสารอุตสาหกรรม AI

GPT-5.4 เปิดตัวอย่างน่าตื่นเต้น: โมเดลเดียวผสานความสามารถ 5 ด้าน ทั้งการเขียนโปรแกรม ค้นหา และควบคุม เอาชนะมนุษย์ 83% ในงานด้านความรู้

GPT-5.4 เปิดตัว: รวม 5 ความสามารถหลักไว้ในตัวเดียว แสดงผลงานด้านความรู้เหนือมนุษย์ส่วนใหญ่ เป็นเวลานานที่ผู้ใช้มักต้องสลับระหว่างโมเดลต่างๆ ตามประเภทงานเมื่อใช้เครื่องมือ AI: การเข…

2026年3月6日
84000

พันธนาการสามประการของการนำ VLA แบบดั้งเดิมไปปฏิบัติจริง

แนวทางแก้ไขของ RISE: โมเดลโลกแบบผสมผสานและการวิวัฒนาการตนเองในพื้นที่จินตนาการ

การวิเคราะห์โครงสร้าง RISE: การแยกส่วนจริง-เสมือน ทำให้จินตนาการสอดคล้องกับกฎฟิสิกส์

การทดสอบยืนยัน: ประสิทธิภาพพุ่งสูงขึ้น ความสามารถในการปรับใช้ทั่วไปแข็งแกร่ง

การปรับใช้ทั่วไปและการต้านทานการรบกวน: เหนือกว่าการเลียนแบบเชิงกลไก

คุณภาพการสร้าง: การสร้างใหม่กฎฟิสิกส์ด้วยความเที่ยงตรงสูง

相关推荐

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด

Typeless AI คีย์บอร์ดเสียง ทดสอบจริง: ค่าใช้จ่ายรายเดือนสูงกว่า ChatGPT Plus ทำไมผู้ใช้ 100,000 คนถึงยอมจ่าย?