ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'

การบรรลุความสามารถในการควบคุมการเคลื่อนไหวที่คล่องแคล่วในระดับมนุษย์เป็นหนึ่งในความท้าทายหลักในสาขาหุ่นยนต์ แม้ว่ามือกลหลายนิ้วจะมีศักยภาพทางฮาร์ดแวร์แล้ว แต่เนื่องด้วยความซับซ้อนของฟิสิกส์การสัมผัสและกลไกการขับเคลื่อนที่ไม่สมบูรณ์แบบ การฝึกกลยุทธ์ควบคุมที่สามารถนำไปใช้งานได้โดยตรงบนฮาร์ดแวร์จริงยังคงเป็นเรื่องยาก

เพื่อแก้ไขปัญหาสำคัญนี้ งานวิจัยเรื่อง “Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation” ได้เสนอกรอบการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ที่ใช้งานได้จริง

ผลงานหลักของงานวิจัยนี้คือการเสนอชุดโซลูชันแบบจำลองสู่ความเป็นจริง (Sim-to-Real) ที่สมบูรณ์ โดยการผสมผสานการรับรู้สัมผัสความละเอียดสูงกับการรับรู้แรงบิดข้อต่อที่ประมาณจากกระแสมอเตอร์ เพื่อปรับปรุงกระบวนการปฏิสัมพันธ์ทางกายภาพอย่างชัดเจน กรอบงานนี้ไม่เพียงแต่แก้ปัญหาคอขวดด้านการคำนวณของการจำลองสัมผัสความละเอียดสูง แต่ยังลดการพึ่งพาเซ็นเซอร์แรงบิดราคาแพงผ่านการสร้างแบบจำลองแอคชูเอเตอร์ที่ขับเคลื่อนด้วยข้อมูล สุดท้ายทำให้สามารถฝึกกลยุทธ์ในสภาพแวดล้อมจำลองบริสุทธิ์ได้ หลังการฝึกเสร็จสิ้น กลยุทธ์สามารถนำไปใช้งานแบบ Zero-Shot บนมือกลห้านิ้วจริงได้ทันที โดยไม่จำเป็นต้องปรับจูนเพิ่มเติมด้วยข้อมูลจากโลกจริง

ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'
Figure 1: กรอบกลยุทธ์สถานะเต็มที่ผสานการรับรู้สัมผัสและแรงบิดข้อต่อ

หนึ่ง เทคโนโลยีหลักสามประการ: เชื่อมโยงสายโซ่การรับรู้และการขับเคลื่อนจากแบบจำลองสู่ความเป็นจริง

หัวใจของงานวิจัยอยู่ที่การเอาชนะความแตกต่างอย่างมากระหว่างแบบจำลองและความเป็นจริงในด้านการรับรู้สัมผัส ฟิสิกส์การสัมผัส และพลวัตของแอคชูเอเตอร์ เพื่อฝึกฝนกลยุทธ์สถานะเต็มที่ที่สามารถควบคุมแรงจับและการเคลื่อนไหวที่คล่องแคล่วได้

งานวิจัยนี้สร้างระบบที่สมบูรณ์ซึ่งประกอบด้วยเทคโนโลยีหลักสามประการ เพื่อให้เกิดการเชื่อมต่อที่ราบรื่นจากการฝึกในแบบจำลองไปสู่การใช้งานจริง

1. การจำลองสัมผัสที่มีประสิทธิภาพเชิงคำนวณ: คำนึงถึงทั้งความละเอียดสูงและอัตราเฟรมสูง

การจำลองสัมผัสที่มีความเที่ยงตรงสูงเป็นอุปสรรคระยะยาวในการเรียนรู้ทักษะการสัมผัสที่ซับซ้อน การวิเคราะห์ไฟไนต์เอลิเมนต์แบบดั้งเดิมหรือการจำลองวัตถุอ่อนมีต้นทุนการคำนวณสูงเกินไป และยากที่จะตอบสนองความต้องการของการเรียนรู้แบบเสริมกำลังสำหรับการประมวลผลแบบขนานขนาดใหญ่และอัตราเฟรมสูง

งานวิจัยนี้เสนอวิธีการจำลองสัมผัสแบบรวดเร็วโดยใช้ฟิลด์ระยะทาง ผ่านการคำนวณจลนศาสตร์ไปข้างหน้าแบบขนาน เพื่อหาระยะห่างระหว่างอาร์เรย์ของหน่วยสัมผัสเสมือนที่หนาแน่นกับพื้นผิววัตถุ วิธีนี้ไม่เพียงให้สัญญาณความถี่สูงที่จำเป็นสำหรับการเรียนรู้แบบเสริมกำลัง แต่ยังรักษาข้อมูลการสัมผัสที่สำคัญ การออกแบบนี้ช่วยเพิ่มประสิทธิภาพการจำลองอย่างมากในขณะที่ยังคงความสมเหตุสมผลทางกายภาพ ทำให้กลยุทธ์สามารถสำรวจพลวัตการสัมผัสที่ซับซ้อนได้อย่างเต็มที่ในแบบจำลอง

ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'
Figure 2: การสร้างแบบจำลองจุดสัมผัสและคุณสมบัติวัสดุ

จากการเปรียบเทียบข้อมูลการสัมผัสระหว่างแบบจำลองและโลกจริง พบว่าทั้งสองแสดงความสอดคล้องสูงในด้านการกระจายตัวของจุดสัมผัสและขนาดของแรงสัมผัส ซึ่งพิสูจน์ความเที่ยงตรงสูงของวิธีการจำลองสัมผัสนี้

2. การปรับเทียบกระแส-แรงบิด: การควบคุมแรงที่แม่นยำโดยไม่ต้องใช้เซ็นเซอร์แรงบิด

มือกลหลายนิ้วเชิงพาณิชย์ส่วนใหญ่ใช้โครงสร้างส่งกำลังเช่นลิงก์หรือสายเอ็น ซึ่งขาดเซ็นเซอร์แรงบิดระดับข้อต่อ และโดยปกติสามารถให้เฉพาะค่าการวัดกระแสมอเตอร์เท่านั้น มีความแตกต่างอย่างมากระหว่างการควบคุมแรงบิดในอุดมคติในแบบจำลองกับคุณลักษณะที่ไม่สมบูรณ์แบบของมอเตอร์จริง

เพื่อแก้ปัญหานี้ การวิจัยได้นำกลไกการปรับเทียบกระแส-แรงบิดมาใช้ โดยการปรับเส้นตรงความสัมพันธ์ระหว่างกระแสมอเตอร์กับแรงสัมผัส และแรงบิดในแบบจำลองกับแรงสัมผัสภายใต้สภาวะกึ่งสถิต เพื่อสร้างการแมป “กระแสสู่แรงบิด” ที่น่าเชื่อถือ วิธีการปรับเทียบที่ขับเคลื่อนด้วยข้อมูลนี้ ทำให้กลยุทธ์ในขณะใช้งานจริงสามารถใช้สัญญาณกระแสที่อ่านได้และทำให้เป็นมาตรฐานเป็นอินพุต “แรงบิดข้อต่อ” ได้ ดังนั้นจึงสามารถรับรู้และควบคุมแรงปฏิสัมพันธ์ได้อย่างชัดเจนโดยไม่ต้องใช้เซ็นเซอร์แรงบิดทางกายภาพ

ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'
Figure 3: การปรับเทียบและการจัดแนวระหว่างกระแส-แรงในโลกจริงและแรงบิดในแบบจำลอง-แรง

3. การสร้างแบบจำลองพลวัตแอคชูเอเตอร์และการสุ่ม: เพิ่มความทนทานต่อการถ่ายโอนจากแบบจำลองสู่ความเป็นจริง

มอเตอร์จริงมีคุณลักษณะที่ไม่สมบูรณ์แบบหลายประการ เช่น ช่องว่างของเกียร์ ความอิ่มตัวของแรงบิด-ความเร็ว และแรงเสียดทาน หากละเลยคุณลักษณะเหล่านี้ในแบบจำลอง กลยุทธ์ที่ฝึกมาอาจแสดงความเปราะบางบนฮาร์ดแวร์จริง

งานวิจัยนี้ได้สร้างแบบจำลองพลวัตของแอคชูเอเตอร์เหล่านี้อย่างชัดเจนในแบบจำลอง และทำการสุ่มโดเมนอย่างกว้างขวางบนพารามิเตอร์สำคัญ กลยุทธ์นี้บังคับให้กลยุทธ์ควบคุมปรับตัวเข้ากับข้อบกพร่องของฮาร์ดแวร์และการเปลี่ยนแปลงของ公差ต่างๆ ซึ่งช่วยเพิ่มความทนทานต่อการถ่ายโอนจากแบบจำลองสู่ความเป็นจริงอย่างมีนัยสำคัญ

สอง กลยุทธ์สถานะเต็มที่และกระบวนทัศน์การฝึกใหม่: บรรลุการจับแบบปรับตัวด้วยแรงควบคุมและการหมุนวัตถุภายในมือ

จากกรอบงานแบบจำลองสู่ความเป็นจริงข้างต้น ทีมวิจัยได้ฝึกฝนและใช้งานสองทักษะการเคลื่อนไหวที่คล่องแคล่วที่สำคัญได้สำเร็จ: การจับแบบปรับตัวด้วยแรงควบคุมและการหมุนวัตถุภายในมือ

1. กระบวนทัศน์การฝึก “รับของ” แบบกลับด้าน: เพิ่มประสิทธิภาพตัวอย่างและความทนทาน

กระบวนทัศน์การฝึกการจับวัตถุบนโต๊ะแบบดั้งเดิมมักเผชิญกับปัญหาประสิทธิภาพตัวอย่างต่ำ วิศวกรรมรางวัลที่ซับซ้อน และแนวโน้มที่จะเกิดพฤติกรรม “แฮ็กรางวัล” เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอการตั้งค่าการฝึก “รับของ” แบบกลับด้านที่เป็นนวัตกรรม

ในการตั้งค่านี้ มือกลถูกตรึงโดยให้ฝ่ามือหงายขึ้น วัตถุตกลงมาจากด้านบนแบบสุ่ม วิธีการที่ใช้แรงโน้มถ่วงตามธรรมชาติเพื่อนำวัตถุเข้าสู่พื้นที่ทำงานนี้ ทำให้กระบวนการสำรวจง่ายขึ้นอย่างมาก และทำให้กลยุทธ์สามารถมุ่งเน้นการเรียนรู้การประสานงานของนิ้วและการปรับแรงหลังการสัมผัสได้ ในเวลาเดียวกัน กระบวนการรับของแบบไดนามิกนี้ส่งเสริมให้เกิดท่าจับแบบห่อหุ้มที่มีจุดสัมผัสหลายจุด ยับยั้งกลยุทธ์การจับที่ขอบซึ่งไม่มั่นคงโดยธรรมชาติ และกระตุ้นให้กลยุทธ์เรียนรู้วิธีการจับที่มั่นคงซึ่งใกล้เคียงกับที่มนุษย์ชอบ

2. การจับแบบปรับตัวด้วยแรง: การควบคุมแรงบิดและแรงสัมผัสที่แม่นยำ

ในงานจับแบบปรับตัวด้วยแรง กลยุทธ์จำเป็นต้องปรับแรงจับของแต่ละนิ้วแบบไดนามิกตามคำสั่งแรงที่ผู้ใช้ป้อนเข้า

งานวิจัยแสดงให้เห็นว่าฟังก์ชันรางวัลแบบผสมที่รวมการลงโทษแรงสัมผัสและการลงโทษแรงบิดข้อต่อเป็นกุญแจสำคัญในการควบคุมแรงที่มั่นคง การลงโทษเฉพาะแรงสัมผัสจะทำให้แรงบิดข้อต่อไม่เพียงพอและการจับไม่มั่นคง การลงโทษเฉพาะแรงบิดข้อต่อจะไม่สามารถส่งผ่านแรงไปยังปลายนิ้วได้อย่างมีประสิทธิภาพ การรวมกันของทั้งสองทำให้กลยุทธ์สามารถประสานการขับเคลื่อนข้อต่อและการสัมผัสปลายนิ้วไปพร้อมกัน บรรลุการควบคุมแรงที่แม่นยำซึ่งมีความสัมพันธ์เชิงเส้นสูงกับคำสั่ง

ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'
Figure 4: การเปลี่ยนแปลงของแรงบิดข้อต่อและแรงสัมผัสตามคำสั่งแรงภายใต้การตั้งค่ารางวัลที่แตกต่างกัน

3. การหมุนวัตถุภายในมือ: การบูรณาการอย่างลึกซึ้งระหว่างสัมผัสและการรับรู้ภายในร่างกาย

งานหมุนวัตถุภายในมือต้องการให้กลยุทธ์ประสานการก้าวนิ้ว ในขณะที่รักษาการสัมผัสที่มั่นคง ให้หมุนวัตถุรอบแกนที่กำหนด

การทดลองแบบตัดออกเผยให้เห็นความสำคัญของโหมดการรับรู้ที่แตกต่างกัน ผลลัพธ์แสดงให้เห็นว่าการกำหนดค่าการสังเกตแบบสมบูรณ์ซึ่งรวมถึงจุดศูนย์กลางสัมผัสถ่วงน้ำหนักด้วยแรง แรงสัมผัส และการแสดงทิศทาง 6 มิติ ให้ประสิทธิภาพที่ดีที่สุด การลบข้อมูลสัมผัสใดๆ ออกจะทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ ในขณะที่กลยุทธ์พื้นฐานที่ไม่มีข้อมูลสัมผัสเลยแทบไม่สามารถทำงานให้สำเร็จได้ สิ่งนี้พิสูจน์อย่างเต็มที่ถึงความสำคัญที่ไม่อาจทดแทนได้ของข้อมูลสัมผัสความละเอียดสูงในการเคลื่อนไหวภายในมือที่ซับซ้อน

ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี 'สัมผัส' และ 'ความรู้สึกถึงแรง'
Figure 5: ผลลัพธ์การแสดงภาพงานเคลื่อนไหวภายในมือในโลกจริงและสภาพแวดล้อมจำลอง

สาม การสนับสนุนฮาร์ดแวร์: มือกลห้านิ้ว

กรอบงานนี้สามารถใช้งานแบบ Zero-Shot ได้ ต้องอาศัยการสนับสนุนของฮาร์ดแวร์พื้นฐาน คุณลักษณะฮาร์ดแวร์และกรอบอัลกอริทึมสร้างความร่วมมือกัน แสดงให้เห็นถึงข้อได้เปรียบในการใช้งานจริง

1. อาร์เรย์สัมผัสความละเอียดสูง: จับการสัมผัสละเอียดอ่อน แก้ปัญหาคอขวดการรับรู้ในการเคลื่อนไหวภายในมือ

1. การรับรู้สัมผัสแบบห่อหุ้มเต็มที่ความละเอียดสูง: กุญแจสำคัญในการบรรลุการเคลื่อนไหวที่ซับซ้อน

การทดลองแบบตัดออกในงานวิจัย DexManip แสดงให้เห็นว่าข้อมูลสัมผัสความละเอียดสูง (จุดศูนย์กลางสัมผัสและแรงสัมผัส) เป็นปัจจัยชี้ขาดในการบรรลุการเคลื่อนไหวที่ซับซ้อน เช่น การหมุนวัตถุภายในมือ แพลตฟอร์มการทดลองติดตั้งเซ็นเซอร์อาร์เรย์สัมผัสความละเอียดสูงที่ล้อมรอบ 270° บนปลายนิ้วแต่ละนิ้ว (จุดสัมผัสต่อนิ้ว > 100 จุด) เมื่อเทียบกับเซ็นเซอร์แบบแผ่นแบนประเภทแรงต้านทานแบบดั้งเดิม อาร์เรย์แบบโค้งที่ห่อหุ้มเต็มที่นี้สามารถจับการเปลี่ยนแปลงการสัมผัสเล็กน้อยเมื่อวัตถุกลิ้งหรือลื่นบนปลายนิ้วได้โดยไม่มีจุดบอด เมื่อรวมกับความสามารถในการรับรู้แรงที่มีความแม่นยำสูง แพลตฟอร์มนี้ให้อินพุตการสังเกตที่อุดมสมบูรณ์และแม่นยำอย่างยิ่งสำหรับกลยุทธ์ DexManip ทำให้สามารถจัดการกับวัตถุรูปร่างไม่ปกติหรือดำเนินการ “การก้าวนิ้ว” ที่ละเอียดอ่อนได้อย่างคล่องแคล่ว

2. การเชื่อมต่อที่ราบรื่นระหว่างโมเดล URDF ความแม่นยำสูงและการจำลองสัมผัส: ลดช่องว่างระหว่างความเป็นจริง

ความก้าวหน้าหลักของกรอบงาน DexManip อยู่ที่การจำลองสัมผัสแบบใช้ฟิลด์ระยะทางที่มีประสิทธิภาพเชิงคำนวณ ความสำเร็จของอัลกอริทึมนี้ขึ้นอยู่กับความสอดคล้องระหว่างโมเดลจำลองและโลกทางกายภาพจริงอย่างสูง แพลตฟอร์มการทดลองให้โมเดล URDF ที่มีความแม่นยำสูง ไม่เพียงแต่อธิบายจลนศาสตร์ของลิงก์และพารามิเตอร์พลวัตได้อย่างแม่นยำ แต่ยังแมปการกระจายตัวเชิงพื้นที่ของเซ็นเซอร์จริงได้อย่างสมบูรณ์แบบ การสนับสนุนโมเดลระดับ “ฝาแฝดดิจิทัล” นี้ ทำให้หน่วยสัมผัสเสมือนที่ DexManip คำนวณในแบบจำลองสามารถจัดแนวได้อย่างแม่นยำ 1:1 กับอาร์เรย์เซ็นเซอร์จริง จึงลดความยากในการถ่ายโอนจากแบบจำลองสู่ความเป็นจริงอย่างมาก และรับประกันการใช้งานที่มีประสิทธิภาพของกลยุทธ์ที่ฝึกในแบบจำลองบริสุทธิ์บนฮาร์ดแวร์จริง

3. ความสอดคล้องที่สมบูรณ์แบบระหว่างสถาปัตยกรรมขับเคลื่อนตรงเต็มที่และการปรับเทียบกระแส-แรงบิด: บรรลุการควบคุมแรงที่แม่นยำ

ในงานจับแบบปรับตัวด้วยแรง DexManip เสนอให้ใช้ “การปรับเทียบกระแส-แรงบิด” เพื่อแทนที่เซ็นเซอร์แรงบิดทางกายภาพราคาแพง สถาปัตยกรรมมอเตอร์ขับเคลื่อนตรงเต็มที่ของแพลตฟอร์มการทดลองให้พื้นฐานฮาร์ดแวร์ในอุดมคติสำหรับอัลกอริทึมนี้ การออกแบบขับเคลื่อนตรงเต็มที่กำจัดแรงเสียดทาน ความล่าช้า และการรบกวนแบบไม่เชิงเส้นที่เกิดจากตัวลดความเร็วแบบดั้งเดิมตั้งแต่ต้น ทำให้กระแสเฟสของมอเตอร์มีความสัมพันธ์เชิงเส้นสูงกับแรงบิดที่ส่งออก สิ่งนี้ไม่เพียงทำให้กระบวนการปรับเทียบกระแส-แรงบิดของ DexManip แม่นยำและน่าเชื่อถือมากขึ้น แต่ยังให้แบนด์วิดท์การควบคุมแรงที่สูงและความสามารถในการตอบสนองแบบไดนามิกที่ไวแก่มือกล ทำให้สามารถปรับความแรงของการจับได้อย่างแม่นยำตามคำสั่งแรงที่แตกต่างกัน และควบคุมวัตถุที่แตกหักง่ายหรือวัตถุอ่อนได้อย่างปลอดภัย