OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ในงานฉลองเทศกาลฤดูใบไม้ผลิ การแสดงศิลปะการต่อสู้ “武 BOT” โดยหุ่นยนต์ Unitree นั้นน่าประทับใจมาก ในการแสดง หุ่นยนต์ฮิวแมนนอยด์ G1 และ H2 สามารถวิ่งเร็วพร้อมทั้งเปลี่ยนรูปแบบแทรกแซงและทำท่าทางศิลปะการต่อสู้ได้สำเร็จ แสดงให้เห็นถึงความสามารถในการควบคุมฝูงแบบอัตโนมัติเต็มรูปแบบที่มีพลวัตสูงและประสานงานกันได้ดี

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ปัจจุบัน งานวิจัยใหม่โดยสถาบันต่างๆ เช่น สถาบันปัญญาประดิษฐ์ทั่วไปปักกิ่ง (BIGAI), Unitree Technology, มหาวิทยาลัยเจียวทงเซี่ยงไฮ้ และมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน ได้ก้าวหน้าไปอีกขั้นในทิศทางนี้ พวกเขาเสนอ OmniXtreme: กลยุทธ์การควบคุมทั่วไปที่สามารถดำเนินการเคลื่อนไหวสุดขั้วทุกประเภท โดยคลังท่าทางประกอบด้วยการตีลังกาต่อเนื่อง, การทรงตัวขั้นสุดขั้ว, และแม้กระทั่งสามารถเต้นเบรกแดนซ์ได้ผ่านการสลับการสัมผัสอย่างรวดเร็ว

การบรรลุความสามารถนี้แบ่งออกเป็นสองขั้นตอนสำคัญ: ขั้นแรกคือการฝึกล่วงหน้านโยบายการควบคุมเชิงสร้างสรรค์แบบ Flow-based จากนั้นจึงทำการฝึกหลังด้วย “การเสริมการเรียนรู้แบบตกค้างที่รับรู้การขับเคลื่อน” สำหรับพลวัตทางกายภาพที่ซับซ้อน โดยขั้นตอนการฝึกหลังนี้มีความสำคัญอย่างยิ่งต่อการถ่ายโอนนโยบายไปสู่โลกแห่งความเป็นจริงได้สำเร็จ

Siyuan Huang นักวิทยาศาสตร์วิจัยของ BIGAI และหนึ่งในผู้เขียนติดต่อของงานวิจัยนี้ กล่าวว่า “เราใช้เวลาหนึ่งปีในการศึกษาอุปสรรคระหว่างการติดตามทั่วไปกับพฤติกรรมทางกายภาพขั้นสุดขั้วอย่างลึกซึ้ง หลังจากทดสอบหุ่นยนต์ G1 หลายสิบตัว ในที่สุดเราก็พบกับจุดคอขวดในด้านความสามารถในการเรียนรู้และการปฏิบัติทางกายภาพ”

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ที่น่าสังเกตคือ Wang Xingxing ผู้ร่วมก่อตั้งและซีอีโอของ Unitree Technology ก็อยู่ในรายชื่อผู้เขียนบทความวิจัยนี้เช่นกัน ผู้เขียนร่วมคนแรกของบทความคือ Yunshen Wang และ Shaohang Zhu

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

  • ที่อยู่บทความ: https://arxiv.org/abs/2602.23843
  • ที่อยู่โครงการ: https://extreme-humanoid.github.io
  • ที่อยู่โค้ด: https://github.com/Perkins729/OmniXtreme

วิธีการ: ทำลายกำแพงการวางนัยทั่วไปของการควบคุมพลวัตสูง

ในสาขาการควบคุมการเคลื่อนไหวของหุ่นยนต์ฮิวแมนนอยด์ นักวิจัยต้องเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออกที่เรียกว่า “กำแพงการวางนัยทั่วไป” มานาน เมื่อขนาดและความหลากหลายของคลังท่าทางเพิ่มขึ้น นโยบายการเรียนรู้แบบเสริมแรงแบบรวมดั้งเดิมมักประสบกับความล้มเหลวด้านประสิทธิภาพ ซึ่งเห็นได้ชัดเป็นพิเศษเมื่อนำท่าทางพลวัตสูงไปใช้งาน ความล้มเหลวนี้เกิดจากจุดคอขวดสองประการที่ซ้อนทับกัน: จุดคอขวดในการเรียนรู้ในสภาพแวดล้อมจำลอง (การรบกวนเกรเดียนต์จากการปรับหลายท่าทางให้เหมาะสม) และจุดคอขวดในการปฏิบัติทางกายภาพ (ข้อจำกัดการขับเคลื่อนที่ซับซ้อนในโลกแห่งความเป็นจริง)

เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอกรอบงาน OmniXtreme กรอบงานนี้แยกการเรียนรู้ทักษะการเคลื่อนไหวกับการปรับจูนการขับเคลื่อนทางกายภาพออกจากกัน แบ่งออกเป็นสองขั้นตอนหลัก: “การฝึกล่วงหน้าที่ขยายได้แบบ Flow-based” และ “การฝึกหลังแบบตกค้างที่รับรู้การขับเคลื่อน”

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ขั้นตอนที่หนึ่ง: การฝึกล่วงหน้าที่ขยายได้แบบ Flow-based

เป้าหมายของขั้นตอนนี้คือการมอบความจุในการแสดงผลสูงให้กับโมเดล เพื่อให้สามารถเชี่ยวชาญท่าทางสุดขั้วที่ต่างกันจำนวนมาก พร้อมทั้งหลีกเลี่ยงแนวโน้มการหาค่าเฉลี่ยแบบอนุรักษ์นิยมที่พบบ่อยในการเรียนรู้แบบเสริมแรงหลายท่าทาง

นักวิจัยได้รวบรวมชุดข้อมูลการเคลื่อนไหวคุณภาพสูงหลายชุด เช่น LAFAN1, AMASS, MimicKit ก่อน แล้วจึงเปลี่ยนทิศทางใหม่ไปยังโมเดลหุ่นยนต์ฮิวแมนนอยด์ G1 ของ Unitree สำหรับท่าทางอ้างอิงเหล่านี้ ทีมงานใช้อัลกอริทึม PPO เพื่อฝึกนโยบายผู้เชี่ยวชาญหลายชุด หลังจากนั้น OmniXtreme ใช้เทคนิคการกลั่นความรู้แบบรวมชุดข้อมูล เพื่อรวมพฤติกรรมของนโยบายผู้เชี่ยวชาญเหล่านี้ให้เป็นหนึ่งเดียวในนโยบายเชิงสร้างสรรค์แบบ Flow Matching

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ในทางคณิตศาสตร์ โมเดลแบบ Flow-based เรียนรู้กระบวนการกู้คืนท่าทางผู้เชี่ยวชาญจากสัญญาณรบกวนล้วนๆ โดยการปรับฟังก์ชันวัตถุประสงค์เฉพาะให้เหมาะสม:

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

โดยที่ a_t แสดงถึงท่าทางสอดแทรกระหว่างท่าทางผู้เชี่ยวชาญ a_expert กับสัญญาณรบกวนสุ่ม ε ที่ขั้นเวลาการไหล t ฟังก์ชันวัตถุประสงค์นี้ทำให้โมเดลเรียนรู้สนามความเร็ว v_θ ซึ่งในขั้นตอนการอนุมานจะสร้างการควบคุมการเคลื่อนไหวต่อเนื่องที่มีความแม่นยำสูงผ่านการอินทิเกรตแบบออยเลอร์ไปข้างหน้า เพื่อรับประกันความเสถียรทางกายภาพ ขั้นตอนนี้จะแนะนำสัญญาณรบกวนและการสุ่มโดเมนในระดับปานกลางเท่านั้น เพื่อให้แน่ใจว่านโยบายสามารถจับลักษณะพลวัตทางกายภาพพื้นฐานได้อย่างแม่นยำ

ขั้นตอนที่สอง: การฝึกหลังที่รับรู้การขับเคลื่อน

นโยบาย Flow Matching ที่ได้จากการฝึกล่วงหน้าแสดงความแม่นยำในการติดตามสูงในการจำลอง แต่คุณสมบัติไม่เชิงเส้นของมอเตอร์ในโลกแห่งความเป็นจริงมักทำให้ประสิทธิภาพพลวัตสูงลดลงอย่างมาก เพื่อให้เกิดการถ่ายโอน “จากแบบจำลองสู่ความเป็นจริง” ที่ราบรื่น ทีมงานได้ตรึงนโยบายพื้นฐานที่ฝึกล่วงหน้าไว้ และฝึกนโยบายตกค้างแบบ MLP ขนาดเบาบนนั้น นโยบายตกค้างนี้ไม่จำเป็นต้องเรียนรู้การติดตามการเคลื่อนไหวใหม่ แต่มีหน้าที่หลักในการส่งออกการเคลื่อนไหวที่แก้ไขเพื่อต่อต้านข้อจำกัดฮาร์ดแวร์จริง

เพื่อให้นโยบายตกค้างปรับตัวเข้ากับข้อจำกัดทางกายภาพได้อย่างเต็มที่ ทีมงานได้แนะนำการสร้างแบบจำลองเชิงลึกสามระดับในสภาพแวดล้อมการฝึก:

  1. การสุ่มโดเมนที่รุนแรง: นักวิจัยได้เพิ่มช่วงพารามิเตอร์การสุ่มโดเมน เช่น สัญญาณรบกวนท่าทางเริ่มต้น ขนาดการรบกวนแรงภายนอก ความเร็วเชิงมุม ฯลฯ อย่างมาก (สูงสุดถึง 50%) พร้อมทั้งผ่อนปรนเกณฑ์การสิ้นสุดลง 1.5 เท่า (เช่น ผ่อนปรนความคลาดเคลื่อนทิศทางลำตัวจาก 0.8 เรเดียนเป็น 1.2 เรเดียน) การออกแบบนี้มอบพื้นที่การสำรวจที่เพียงพอแก่นโยบายตกค้าง ทำให้เรียนรู้ที่จะช่วยเหลือขั้นสุดขั้วในสภาวะที่มีความเบี่ยงเบนสูง ซึ่งเพิ่มความแข็งแกร่งของระบบ
  2. การทำให้เป็นปกติของการขับเคลื่อนที่ปลอดภัยด้วยกำลัง: เมื่อดำเนินท่าทางพลวัตสูง เช่น การตีลังกากลับหลัง หุ่นยนต์จะสร้างภาระการเบรกชั่วขณะมหาศาล OmniXtreme ได้นำกลไกการลงโทษสำหรับกำลังกลอย่างสร้างสรรค์ โดยหลักสำคัญอยู่ที่การคำนวณผลคูณของแรงบิดข้อต่อและความเร็วเชิงมุม ซึ่งก็คือกำลังกลชั่วขณะ P=τ·ω สำหรับกำลังลบสูงที่เกินขีดจำกัดความปลอดภัย (การเบรกแบบรีเจนเนอเรทีฟ) ทีมงานใช้ฟังก์ชันการลงโทษกำลังสองที่เข้มงวด:

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

มีการใช้เงื่อนไขการลงโทษนี้กับข้อเข่าเป็นพิเศษ เนื่องจากข้อเข่ามีแนวโน้มที่จะรับภาระการเบรกที่ทำลายล้างได้มากที่สุดในระหว่างช่วงการกระแทกและการฟื้นตัว

  1. ข้อจำกัดแรงบิดและความเร็วที่รับรู้การขับเคลื่อน: ทีมงานได้รวมเส้นโค้งการทำงานจริงของมอเตอร์เข้าไปในเครื่องจำลอง กำหนดฟังก์ชันแรงบิดที่อนุญาตซึ่งลดลงแบบโมโนโทนตามขนาดความเร็วข้อต่อ นอกจากนี้ ระบบยังจำลองการสูญเสียภายในระดับแอคชูเอเตอร์ผ่านเทอมแรงเสียดทานไม่เชิงเส้น:

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

สูตรนี้จับการเปลี่ยนผ่านอย่างราบรื่นจากแรงเสียดทานสถิตย์ไปสู่แรงเสียดทานจลน์ได้อย่างแม่นยำ และคำนวณการหน่วงที่กระจายไปตามความเร็ว

การติดตั้งแบบเรียลไทม์บนเครื่องล้วนๆ

ในด้านการติดตั้งฮาร์ดแวร์ OmniXtreme แสดงให้เห็นถึงความสมบูรณ์ทางวิศวกรรมที่ค่อนข้างสูง ท่อส่งการอนุมานทั้งหมด (รวมถึงการประมาณสถานะแบบ Forward Kinematics นโยบายพื้นฐาน Flow Matching และนโยบายตกค้าง) ได้รับการปรับให้เหมาะสมอย่างลึกซึ้งโดยใช้ TensorRT บนแพลตฟอร์ม NVIDIA Jetson Orin NX ที่ติดตั้งบนเครื่องของหุ่นยนต์ฮิวแมนนอยด์ G1 ของ Unitree ระบบสามารถบรรลุความล่าช้าในการอนุมต้นทางถึงปลายทางประมาณ 10 มิลลิวินาที สนับสนุนการควบคุมวงปิดความถี่สูง 50 Hz ได้อย่างสมบูรณ์แบบ

ผลการทดลอง: การทดสอบขั้นสุดขั้วรอบด้าน

เพื่อประเมินความสามารถในการขยายและความแข็งแกร่งของ OmniXtreme อย่างครอบคลุม ทีมวิจัยไม่เพียงใช้คลังท่าทางมาตรฐาน LAFAN1 เท่านั้น แต่ยังคัดเลือกท่าทางที่ท้าทายอย่างยิ่งประมาณ 60 ท่า เพื่อสร้างชุดประเมิน XtremeMotion ท่าทางเหล่านี้ประกอบด้วยความเร็วเชิงมุมสูงมาก การสลับการสัมผัสบ่อยครั้ง และข้อจำกัดด้านเวลาที่เข้มงวด

ความสามารถในการติดตามแบบ Hi-Fi ที่ขยายได้

ในสภาพแวดล้อมจำลอง OmniXtreme ถูกเปรียบเทียบกับฐานอ้างอิง “การเรียนรู้แบบเสริมแรงหลายท่าทางตั้งแต่เริ่มต้น” แบบดั้งเดิม และฐานอ้างอิง “การกลั่นจากผู้เชี่ยวชาญสู่ MLP แบบรวม” ข้อมูลแสดงให้เห็นว่า OmniXtreme นำหน้าอย่างมีนัยสำคัญในทุกตัวชี้วัด เมื่อเผชิญกับชุดข้อมูล XtremeMotion ที่ความยากเพิ่มขึ้นอย่างรวดเร็ว ข้อผิดพลาดในการติดตามของวิธีการแบบดั้งเดิมเพิ่มขึ้นอย่างมาก ในขณะที่ OmniXtreme ยังคงรักษาข้อผิดพลาดทางจลนศาสตร์ที่ต่ำมากและอัตราความสำเร็จที่สูงมาก

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

บนหุ่นยนต์ G1 ของ Unitree ในโลกแห่งความเป็นจริง ทีมงานได้เลือกท่าทางพลวัตสูงที่แตกต่างกัน 24 ท่าจาก XtremeMotion เพื่อทำการทดสอบทางกายภาพ 157 ครั้ง ครอบคลุมหลายหมวดหมู่ เช่น การตีลังกากลับหลัง, การแสดงกายกรรม, เบรกแดนซ์, ศิลปะการต่อสู้

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ในการทดสอบสุดท้าย OmniXtreme บรรลุอัตราความสำเร็จโดยรวมเฉลี่ย 91.08% โดยเฉพาะอย่างยิ่ง อัตราความสำเร็จของท่าทางประเภทตีลังกากลับหลังอยู่ที่ 96.36%, ท่าทางศิลปะการต่อสู้อยู่ที่ 93.33%, และท่าทางเบรกแดนซ์ก็บรรลุ 86.36% เช่นกัน ผลลัพธ์นี้ยืนยันว่านโยบายการควบคุมความเที่ยงตรงสูงในสภาพแวดล้อมจำลองสามารถถ่ายโอนไปสู่โลกแห่งความเป็นจริงได้สำเร็จ

ต่อไปนี้คือตัวอย่างท่าทางบางส่วน:

ทอมัสแฟลร์, สไปรัล, คลานไปข้างหน้า และตีลังกากลับหลัง

เบรกแดนซ์

ศิลปะการต่อสู้

ทำลายการแลกเปลี่ยนระหว่างความเที่ยงตรงและความสามารถในการขยาย

เพื่อตรวจสอบความสามารถในการวางนัยทั่วไปของระบบ ทีมวิจัยได้ทำการทดสอบความเครียดแบบค่อยเป็นค่อยไป: ขยายชุดท่าทางการฝึกจาก 10 ท่า เป็น 20 ท่า และสุดท้ายเป็น 50 ท่า โดยใช้ 10 ท่าแรกเดิมเสมอสำหรับการประเมิน

ผลการทดลองแสดงความแตกต่างอย่างมีนัยสำคัญ เมื่อความหลากหลายของท่าทางเพิ่มขึ้น ประสิทธิภาพของโมเดลฐานอ้างอิงการเรียนรู้แบบเสริมแรงที่ฝึกตั้งแต่เริ่มต้นแบบดั้งเดิมลดลงอย่างรุนแรง อัตราความสำเร็จลดลงจาก 100% อย่างรวดเร็วเป็น 83.3% และสุดท้ายเหลือ 73.9%

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ในทางตรงกันข้าม OmniXtreme แสดงความแข็งแกร่งที่ทรงพลัง แม้ภายใต้ชุดการฝึกขนาดใหญ่ที่มี 50


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23856

Like (0)
Previous 18 hours ago
Next 12 hours ago

相关推荐