เขียน “แผนรับมือเหตุฉุกเฉิน” ล่วงหน้า: AgentChord ช่วยให้หุ่นยนต์วางแผนรับมือความล้มเหลวก่อนลงมือทำ

2 hours ago • ข่าวสารอุตสาหกรรม AI • 9 views

การทำงานของหุ่นยนต์กำลังก้าวจากสภาพแวดล้อมอุตสาหกรรมที่มีโครงสร้างแบบดั้งเดิม ไปสู่โลกแห่งความจริงที่เปิดกว้างและซับซ้อนมากขึ้น แทนที่จะดำเนินการตามคำสั่งที่กำหนดไว้ล่วงหน้าเพียงอย่างเดียว งานในโลกแห่งความจริงมักเกี่ยวข้องกับห่วงโซ่การทำงานที่ยาวขึ้น กระบวนการโต้ตอบกับวัตถุที่ซับซ้อนมากขึ้น และการรบกวนจากภายนอกที่คาดเดาได้ยาก ตัวอย่างเช่น การหยิบจับที่ไม่แน่นพอ วัตถุเป้าหมายถูกชนจนเคลื่อนที่ หรือท่าทางในการส่งต่อระหว่างแขนทั้งสองข้างมีความคลาดเคลื่อนเล็กน้อย สิ่งเหล่านี้อาจทำให้ขั้นตอนต่อๆ ไปเบี่ยงเบนไปจากแผนการดำเนินการเดิม

ดังนั้น ระบบปฏิบัติการหุ่นยนต์ที่เชื่อถือได้ ไม่เพียงแต่ต้องวางแผน “เส้นทางในอุดมคติ” เท่านั้น แต่ยังต้องมีความสามารถในการรับมือกับสถานการณ์ที่ไม่คาดคิดต่างๆ ในระหว่างการดำเนินการอีกด้วย

วิธีการหลักในปัจจุบัน มักจะตรวจหา วิเคราะห์ และวางแผนการกู้คืนการทำงานหลังจากเกิดความล้มเหลวแล้วเท่านั้น อย่างไรก็ตาม ในงานระยะยาว วิธีการแก้ไขภายหลังนี้จะทำให้เกิดความล่าช้าเพิ่มเติม และมีแนวโน้มที่จะทำให้หุ่นยนต์ติดอยู่ในวงจรของการย้อนกลับและดำเนินการซ้ำ ซึ่งไม่มีประสิทธิภาพ

เมื่อเร็วๆ นี้ ทีมวิจัยจากมหาวิทยาลัยจีนแห่งฮ่องกง (เซินเจิ้น), Kuawei Intelligence และ Hetao College of Shenzhen ได้เสนอ AgentChord ซึ่งเป็นระบบเอเจนต์ที่ออกแบบมาเพื่อการกู้คืนความล้มเหลวในการทำงานของหุ่นยนต์โดยเฉพาะ ผลงานวิจัยนี้ได้รับการตอบรับให้ตีพิมพ์ในการประชุมระดับแนวหน้าด้านหุ่นยนต์ Robotics: Science and Systems (RSS) 2026 และโค้ดที่เกี่ยวข้องได้ถูกเปิดเผยเป็นโอเพนซอร์สแล้ว

AgentChord พยายามแก้ปัญหาที่ตรงไปตรงมามาก: หุ่นยนต์สามารถคาดการณ์ล่วงหน้าได้หรือไม่ว่า “จะทำอย่างไรหากเกิดปัญหา” ก่อนลงมือปฏิบัติ เช่นเดียวกับมนุษย์? มันไม่ได้ปล่อยให้การกู้คืนความล้มเหลวเป็นการวางแผนใหม่ชั่วคราวในระหว่างการดำเนินการ แต่จะคาดการณ์ความล้มเหลวที่อาจเกิดขึ้นล่วงหน้า และเขียนการดำเนินการกู้คืนที่เกี่ยวข้องลงในกราฟงานโดยตรง

ด้วยวิธีนี้ เมื่อระบบตรวจสอบออนไลน์ตรวจพบความผิดปกติ หุ่นยนต์สามารถสลับไปยังสาขาการกู้คืนที่คอมไพล์ไว้ล่วงหน้าได้ทันที แก้ไขสถานะปัจจุบัน แล้วดำเนินงานที่เหลือต่อไป

เขียน "แผนรับมือเหตุฉุกเฉิน" ล่วงหน้า: AgentChord ช่วยให้หุ่นยนต์วางแผนรับมือความล้มเหลวก่อนลงมือทำ

ชื่อบทความ: From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation
ที่อยู่บทความ: https://arxiv.org/abs/2605.11951
หน้าโครงการ: https://edem-ai.github.io/AgentChord/
โค้ดโครงการ: https://github.com/EDEM-AI/AgentChord

ทำไมต้องรอให้ล้มเหลวก่อนแล้วค่อยหาทางแก้ไข?

เมื่อมนุษย์ปฏิบัติงาน มักไม่ค่อย “วางแผนใหม่” ตั้งแต่ต้น ตัวอย่างเช่น เมื่อแก้วน้ำเอียงขณะรินน้ำ เราจะจัดให้ตรงโดยอัตโนมัติ เมื่อขวดกำลังจะหลุดมือ เราจะปรับเปลี่ยนท่าจับทันที เมื่อส่งวัตถุระหว่างมือทั้งสองข้างไม่ตรงกัน มือข้างหนึ่งจะถอยกลับเล็กน้อย แล้วอีกข้างจะขยับเข้าใกล้ กระบวนการนี้มักรวดเร็วมากและไม่ขัดจังหวะความคืบหน้าของงานทั้งหมด

ในขณะที่ระบบหุ่นยนต์ที่มีอยู่จำนวนมากใช้กระบวนการอีกแบบหนึ่ง: ดำเนินการก่อน ตรวจพบความล้มเหลว จากนั้นเรียกใช้โมเดลภาษาขนาดใหญ่หลายรูปแบบเพื่อวิเคราะห์สาเหตุ แล้วจึงสร้างการดำเนินการกู้คืน แนวคิดนี้อาจใช้ได้ผลในงานง่ายๆ แต่เมื่อต้องเผชิญกับงานระยะยาว ปัญหาก็จะเด่นชัดขึ้นมาก

ในแง่หนึ่ง การเรียกใช้โมเดลภาษาขนาดใหญ่หลายครั้งทำให้เกิดความล่าช้าอย่างมาก เมื่อระบบสังเกต ใช้เหตุผล และวางแผนใหม่เสร็จ ข้อผิดพลาดอาจขยายวงกว้างขึ้นแล้ว เช่น ขวดน้ำล้มแล้ว หรือวัตถุกลิ้งไปยังตำแหน่งที่หยิบจับได้ยาก

ในอีกแง่หนึ่ง หากไม่เรียกใช้โมเดลภาษาขนาดใหญ่อีกครั้ง แต่เพียงย้อนกลับไปยังโหนดก่อนหน้าแล้วดำเนินการใหม่ ก็อาจไม่ได้ผลเช่นกัน แก้วน้ำล้มต้องจัดให้ตั้งตรง ไม่ใช่ทำซ้ำ “การเข้าใกล้แก้วน้ำ” การส่งต่อล้มเหลวต้องประสานตำแหน่งของมือทั้งสองข้างใหม่ ไม่ใช่แค่ย้อนกลับไปเฟรมก่อนหน้า

จุดเริ่มต้นของ AgentChord คือการเปลี่ยน “การกู้คืนความล้มเหลว” จากมาตรการแก้ไขภายหลัง ให้เป็นส่วนหนึ่งที่วางแผนไว้ล่วงหน้าก่อนการดำเนินการ

AgentChord: รวมงาน ความล้มเหลว และการกู้คืนเข้าไว้ในกราฟเดียวกัน

AgentChord แสดงถึงงานปฏิบัติการของหุ่นยนต์เป็นกราฟงานแบบมีทิศทาง โหนดในกราฟแสดงถึงเป้าหมายย่อยเชิงความหมาย เช่น “จับขวด” “เคลื่อนที่ไปเหนือแก้ว” “ทำการเท” ในขณะที่ขอบแสดงถึงการเปลี่ยนผ่านการทำงานจากเป้าหมายย่อยหนึ่งไปยังอีกเป้าหมายหนึ่ง

บนกราฟงานนี้ AgentChord จัดระเบียบบทบาทของเอเจนต์สามตัว

เอเจนต์การจัดโครงสร้างงานมีหน้าที่ทำความเข้าใจคำสั่งภาษาและฉากเริ่มต้น สร้างเส้นทางหลักในการทำงานให้สำเร็จตามปกติก่อน สามารถเข้าใจได้ว่าเป็นการเขียนโครงร่างงาน “ควรทำอย่างไร” ก่อน

เอเจนต์การจัดเตรียมการกู้คืนจะตรวจสอบแต่ละขั้นตอนสำคัญตามเส้นทางหลักนี้ คาดการณ์สถานการณ์ข้อผิดพลาดที่อาจเกิดขึ้นล่วงหน้า: วัตถุหลุด ตำแหน่งเป้าหมายถูกเคลื่อนย้าย กริปเปอร์ไม่ได้จับจริง วัตถุเอียง ตำแหน่งสัมพัทธ์ของแขนทั้งสองข้างไม่แม่นยำ ฯลฯ สำหรับความล้มเหลวที่อาจเกิดขึ้นเหล่านี้ มันจะแทรกโหนดการกู้คืนและขอบการกู้คืนที่เกี่ยวข้อง และระบุว่าหลังจากการกู้คืนเสร็จสิ้น ควรกลับไปยังตำแหน่งใดในกราฟงานต่อไป

เอเจนต์การคอมไพล์การดำเนินการจะคอมไพล์ทั้งการดำเนินการปกติและการดำเนินการกู้คืนเป็นโปรแกรมที่หุ่นยนต์สามารถดำเนินการได้ พร้อมทั้งสร้างฟังก์ชันตรวจสอบที่มีความหน่วงต่ำ ในระหว่างการดำเนินการ ระบบไม่จำเป็นต้องสอบถามโมเดลภาษาขนาดใหญ่ซ้ำๆ แต่จะอ่านสัญญาณต่างๆ เช่น ตำแหน่งและท่าทางของวัตถุ เรขาคณิตของพอยต์คลาวด์ การเปิดปิดของกริปเปอร์ สถานะข้อต่อ อย่างต่อเนื่อง เมื่อฟังก์ชันตรวจสอบถูกกระตุ้น หุ่นยนต์จะเข้าสู่สาขาการกู้คืนที่เกี่ยวข้องโดยตรง

ประเด็นสำคัญที่สุดคือ “การกู้คืนไปข้างหน้า” AgentChord ไม่ได้สนับสนุนให้หุ่นยนต์ย้อนกลับไปเริ่มใหม่ทุกครั้งที่ล้มเหลว แต่พยายามให้การดำเนินการกู้คืนมุ่งไปสู่เป้าหมายสุดท้ายต่อไป หลังจากการกู้คืนเสร็จสิ้น หุ่นยนต์จะกลับเข้ามาในโหนดงานที่เหลืออีกครั้ง จึงหลีกเลี่ยงการดำเนินการซ้ำในส่วนที่ทำเสร็จแล้ว

สิ่งนี้ทำให้ AgentChord เปรียบเสมือน “โน้ตเพลงปฏิบัติการ” ที่มีส่วนฉุกเฉินเตรียมไว้ก่อนเริ่มงาน: การดำเนินการปกติคือทำนองหลัก การดำเนินการกู้คืนคือรูปแบบแปรผันที่เตรียมไว้ล่วงหน้า เมื่อใดที่จะสลับนั้นขึ้นอยู่กับระบบตรวจสอบออนไลน์เป็นผู้ตัดสินใจ

การทดลองในสภาพแวดล้อมจำลองและหุ่นยนต์จริง

ทีมวิจัยได้ทำการประเมินในสภาพแวดล้อมจำลอง EmbodiChain และหุ่นยนต์สองแขนจริง CobotMagic งานที่ครอบคลุมมีหกประเภท ได้แก่ การเทน้ำด้วยแขนเดียว การเทน้ำด้วยสองแขน การจัดโต๊ะอาหาร การส่งต่อบล็อก การพับผ้าเช็ดตัว และการวางถาดกาแฟ ซึ่งรวมถึงวัตถุแข็ง วัตถุบาง และวัตถุยืดหยุ่น รวมถึงการทำงานด้วยแขนเดียวและการทำงานร่วมกันของสองแขนทั้งแบบอะซิงโครนัสและซิงโครนัส

ในการทดลองจำลอง ทีมงานเลือกงานสามประเภท ได้แก่ การเทน้ำด้วยแขนเดียว การเทน้ำด้วยสองแขน และการจัดโต๊ะอาหาร และทำการรบกวน เช่น การทำวัตถุตก ด้วยความน่าจะเป็นที่แตกต่างกัน AgentChord ได้รับอัตราความสำเร็จเฉลี่ยสูงสุด在所有การตั้งค่า โดยอยู่ที่ 99.2% และเวลาในการดำเนินการเฉลี่ย 41.5 วินาที ซึ่งดีกว่าวิธีการพื้นฐาน เช่น Inner Monologue, DoReMi, ReKep และ Code-as-Monitor

ความแตกต่างนี้ไม่ได้เกิดจาก “การตรวจจับที่แม่นยำกว่า” เท่านั้น แต่ที่สำคัญกว่านั้นคือ AgentChord ได้เตรียมสาขาการกู้คืนไว้แล้วก่อนที่ความล้มเหลวจะเกิดขึ้น จึงไม่จำเป็นต้องดำเนินการอนุมานและวางแผนโมเดลภาษาขนาดใหญ่แบบเต็มรูปแบบ ณ จุดเกิดเหตุ และไม่ต้องย้อนกลับไปดำเนินการซ้ำแล้วซ้ำเล่า

การทดลองกับหุ่นยนต์จริงใกล้เคียงกับสภาพแวดล้อมการใช้งานจริงมากกว่า: การรับรู้มีสัญญาณรบกวน การหยิบจับอาจล้มเหลว และการรบกวนจากมนุษย์ก็ควบคุมได้ยากกว่า ในงานจริงหกงาน AgentChord มีอัตราความสำเร็จเฉลี่ย 77.5% และเวลาในการดำเนินการเฉลี่ย 92.2 วินาที ในขณะที่ Code-as-Monitor มีอัตราความสำเร็จเฉลี่ย 72.5% และเวลาในการดำเนินการเฉลี่ย 130.9 วินาที

ในงานที่ต้องการการประสานงานอย่างละเอียด เช่น การเทน้ำด้วยสองแขนและการส่งต่อบล็อก ข้อดีของการคอมไพล์สาขาการกู้คืนล่วงหน้านั้นชัดเจนเป็นพิเศษ หลังจากวัตถุถูกเคลื่อนย้าย ตก หรือท่าทางผิดปกติ หุ่นยนต์สามารถเข้าสู่การดำเนินการกู้คืนที่เกี่ยวข้องได้อย่างรวดเร็ว แทนที่จะรอการอนุมานแบบสมบูรณ์ครั้งใหม่

บทความได้ให้การเปรียบเทียบการทดลองหลายชุดสำหรับงานจริงหกประเภท: แต่ละแถวสอดคล้องกับการทดลองอิสระหนึ่งครั้ง ด้านซ้ายคือฉากเริ่มต้น ด้านขวาคือผลลัพธ์หลังจากงานเสร็จสิ้น ในการทดลองต่างๆ ตัวอย่างวัตถุ ตำแหน่ง ทิศทาง และการกำหนดค่าการรบกวนภายนอกจะเปลี่ยนแปลงไป แต่การเปลี่ยนแปลงเหล่านี้ยังคงอยู่ในขอบเขตที่จลนศาสตร์ของหุ่นยนต์สามารถดำเนินการได้

AgentChord สามารถทำงานให้สำเร็จในฉากที่ไม่เหมือนกันทั้งหมดเหล่านี้ โดยรักษาความสามารถในการกู้คืนและดำเนินการต่อได้อย่างเสถียรภายใต้การเปลี่ยนแปลงของสภาพแวดล้อมจริงและความไม่แน่นอนในการดำเนินการ

วิดีโอการดำเนินการสองรายการด้านล่างแสดงให้เห็นความสามารถในการกู้คืนของ AgentChord ในการทำงานระยะยาวจริง

ในงาน Handover หุ่นยนต์ต้องให้แขนกลข้างหนึ่งจับบล็อกและส่งไปยังตำแหน่งส่งต่อ จากนั้นให้แขนกลอีกข้างหนึ่งรับและวาง แตกต่างจากการวางแผนใหม่ชั่วคราวหลังจากเกิดความล้มเหลว AgentChord จะคาดการณ์ความผิดปกติที่อาจเกิดขึ้นก่อนเริ่มงาน เช่น การที่บล็อกถูกเคลื่อนย้ายออกไปด้วยแรงภายนอกระหว่างการส่งต่อ และสร้างสาขาการกู้คืนที่เกี่ยวข้องล่วงหน้า

ในการดำเนินการจริง เมื่อบล็อกถูกรบกวนก่อนหรือหลังการส่งต่อ ระบบจะไม่เริ่มกระบวนการงานทั้งหมดใหม่ แต่จะกระตุ้นการดำเนินการกู้คืนที่เกี่ยวข้องตามโหนดงานปัจจุบัน ปรับตำแหน่งแขน สถานะกริปเปอร์ และความสัมพันธ์ในการส่งต่อใหม่ แล้วดำเนินการวางในขั้นตอนต่อไปให้เสร็จสิ้น

งานเทน้ำด้วยสองแขนทดสอบความสามารถในการทำงานร่วมกันของระบบเพิ่มเติม: แขนกลข้างหนึ่งต้องถือภาชนะรับน้ำให้มั่นคง อีกข้างหนึ่งต้องจับขวดน้ำ เคลื่อนที่ จัดตำแหน่ง และทำการเท เมื่อตำแหน่งของแก้วหรือขวดน้ำเปลี่ยนแปลงไป AgentChord จะตรวจจับความเบี่ยงเบนได้ทันเวลาผ่านการตรวจสอบออนไลน์ และกระตุ้นการดำเนินการกู้คืนที่เขียนไว้ล่วงหน้าในกราฟงาน เช่น การหยิบจับใหม่ การจัดตำแหน่งใหม่ หรือการปรับตำแหน่งสัมพัทธ์ของแขนทั้งสองข้าง เพื่อให้งานดำเนินไปสู่เป้าหมายต่อไป

วิดีโอทั้งสองนี้แสดงให้เห็นแนวคิดหลักของ AgentChord อย่างชัดเจน: การกู้คืนความล้มเหลวไม่ใช่การวางแผนใหม่ภายหลัง แต่เป็นสาขาที่สามารถดำเนินการได้ซึ่งเตรียมไว้ล่วงหน้า

วิถีการกู้คืนยังสามารถใช้ฝึกฝนกลยุทธ์ได้

บทบาทของ AgentChord ไม่ได้จำกัดอยู่แค่การช่วยเหลืองานในขณะดำเนินการเท่านั้น วิถีการกู้คืนความล้มเหลวที่มันสร้างขึ้นยังสามารถเป็นข้อมูลการฝึกอบรมที่มีคุณค่าอย่างมาก

บทความได้ทำการตรวจสอบในงานเทน้ำด้วยแขนเดียว: ภายใต้เงื่อนไขที่ปริมาณข้อมูลรวมสำหรับการปรับแต่งละเอียดคงที่ ครึ่งหนึ่งของวิถีความสำเร็จปกติถูกแทนที่ด้วยวิถีความล้มเหลวที่สามารถกู้คืนได้ซึ่งสร้างโดย AgentChord

ผลการทดลองแสดงให้เห็นว่า จำนวนความสำเร็จของกลยุทธ์ Sim2Real-VLA ในการทดสอบการรบกวน 50 ครั้ง เพิ่มขึ้นจากเดิม 26/50 เป็น 39/50

ผลลัพธ์นี้เผยให้เห็นว่ากลยุทธ์ของหุ่นยนต์ไม่ควรเรียนรู้เฉพาะรูปแบบ “การทำงานให้สำเร็จอย่างราบรื่น” เท่านั้น แต่ควรเข้าใจ “วิธีดำเนินงานต่อหลังจากเกิดข้อผิดพลาด” ด้วย ในโลกแห่งความจริง ความล้มเหลวนั้นหลีกเลี่ยงได้ยาก และวิถีการกู้คืนคุณภาพสูงก็สามารถเติมเต็มประสบการณ์ส่วนนี้ได้พอดี

ความสำคัญและแนวโน้มในอนาคต

AgentChord นำเสนอโครงสร้างองค์กรที่ชัดเจนสำหรับการกู้คืนการทำงานของหุ่นยนต์: ขั้นตอนการดำเนินงาน จุดที่อาจล้มเหลว กลยุทธ์การกู้คืนหลังจากล้มเหลว และเส้นทางหลังจากกู้คืน ล้วนถูกรวมเข้าด้วยกันในกราฟงานที่สามารถตีความได้

แน่นอนว่าระบบนี้ไม่ได้สมบูรณ์แบบ มันยังคงพึ่งพาโมเดลภาษาขนาดใหญ่ในการคาดการณ์รูปแบบความล้มเหลวทั่วไปล่วงหน้า เมื่อเผชิญกับความล้มเหลวที่หายาก ซับซ้อน หรือไม่ครอบคลุม อาจจำเป็นต้องมีการวินิจฉัยเพิ่มเติมและสาขาเสริมแบบไดนามิก สัญญาณรบกวนในการรับรู้ คุณภาพของพอยต์คลาวด์ และความเป็นไปได้ของจลนศาสตร์ผกผัน ก็สามารถส่งผลต่อผลลัพธ์การกู้คืนขั้นสุดท้ายได้ อย่างไรก็ตาม การออกแบบแบบโมดูลาร์ของเฟรมเวิร์กนี้ทำให้มีความสามารถในการขยายได้ดี ในอนาคต โมเดลภาษาภาพที่ทรงพลังยิ่งขึ้น โมดูลการรับรู้สามมิติที่แข็งแกร่งยิ่งขึ้น และคลังทักษะหุ่นยนต์ที่สมบูรณ์ยิ่งขึ้น ล้วนสามารถเชื่อมต่อกับกราฟงานที่เสริมการกู้คืนนี้ได้

ตั้งแต่บริการภายในบ้านไปจนถึงระบบอัตโนมัติในห้องปฏิบัติการ จากการจัดโต๊ะอาหารไปจนถึงการประกอบชิ้นส่วนที่ซับซ้อนด้วยสองแขน ไม่ช้าก็เร็วหุ่นยนต์จะต้องรับมือกับสถานการณ์ที่ไม่คาดคิดต่างๆ คุณค่าของ AgentChord อยู่ที่การทำให้หุ่นยนต์ไม่ใช่แค่ผู้แก้ไขปัญหาเชิงรับหลังจากเกิดความล้มเหลวอีกต่อไป แต่เป็นผู้ที่เตรียมเส้นทางรับมือกับความล้มเหลวที่อาจเกิดขึ้นไว้ล่วงหน้า ก่อนที่การดำเนินการจะเริ่มต้นขึ้น

แนะนำผู้เขียน

ผู้เขียนคนแรก: Xu Sheng, นักศึกษาปริญญาเอก มหาวิทยาลัยจีนแห่งฮ่องกง (เซินเจิ้น) สาขาการวิจัยครอบคลุมการเรียนรู้แบบเสริมกำลังและการประยุกต์ใช้ใน embodied intelligence เคยตีพิมพ์บทความในฐานะผู้เขียนคนแรกในการประชุมระดับสูง เช่น RSS, ICLR, ICML, NeurIPS

ผู้เขียนติดต่อ: Liu Guiliang, ผู้ช่วยศาสตราจารย์ มหาวิทยาลัยจีนแห่งฮ่องกง (เซินเจิ้น) สาขาการวิจัยมุ่งเน้นไปที่การตัดสินใจของ embodied intelligence และการเรียนรู้แบบเสริมกำลัง ตีพิมพ์บทความมากกว่า 50 บทความในการประชุมและวารสาร机器学习ระดับนานาชาติ เช่น NeurIPS, ICML, ICLR, RSS, ICRA, TPAMI และดำรงตำแหน่ง Area Chair สำหรับ NeurIPS และ ICLR

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง