อำลาความสำเร็จแบบทวิภาค! PRM-as-a-Judge: แนวทางใหม่ในการตรวจสอบงานระยะยาวของหุ่นยนต์อย่างละเอียด

6 hours ago • การประเมินโมเดลขนาดใหญ่ • 12 views

เมื่อการดำเนินงานของหุ่นยนต์พัฒนาจากทักษะระยะสั้นและขั้นตอนเดียวไปสู่ภารกิจที่ซับซ้อนซึ่งมีระยะยาว ต้องสัมผัสหลายครั้ง และต้องการความสามารถในการประสานงานและฟื้นตัวอย่างต่อเนื่อง แนวทางการประเมินแบบดั้งเดิมที่เน้นอัตราความสำเร็จแบบทวิภาค (สำเร็จ/ล้มเหลว) ก็แสดงให้เห็นถึงข้อจำกัดที่ชัดเจน ตัวบ่งชี้นี้สามารถตอบได้เพียงว่า “ภารกิจสำเร็จหรือไม่” แต่ไม่สามารถเปิดเผยปัญหาสำคัญต่างๆ เช่น “กลยุทธ์ก้าวหน้าไปถึงขั้นตอนใดแล้ว” “กระบวนการดำเนินการมีประสิทธิภาพและมั่นคงหรือไม่” และ “ความล้มเหลวเกิดขึ้นที่จุดใดโดยเฉพาะ”

เพื่อรับมือกับความท้าทายนี้ นักวิจัยจากสถาบันอัตโนมัติของสถาบันวิทยาศาสตร์จีน มหาวิทยาลัยปักกิ่ง และสถาบันปัญญาประดิษฐ์ปัญญา (BAAI) ได้เสนอแนวทางใหม่ “PRM-as-a-Judge” กรอบงานนี้ละทิ้งวิธีการประเมินที่อาศัยเพียงผลลัพธ์สุดท้าย หันมาใช้การกู้คืนสัญญาณความก้าวหน้าอย่างต่อเนื่องจากวิดีโอของวิถีการปฏิบัติงาน และทำการตรวจสอบกระบวนการดำเนินงานอย่างละเอียดยิบ องค์ประกอบหลักประกอบด้วย ศักย์ความก้าวหน้าที่มีเงื่อนไขภารกิจ ระบบตัวบ่งชี้สามชั้น OPD และเกณฑ์มาตรฐาน RoboPulse ที่ใช้เพื่อตรวจสอบความสามารถในการแยกแยะระดับละเอียดของเครื่องมือประเมิน

ข้อมูลเอกสารวิชาการ
* ชื่อเรื่อง: PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
* เอกสาร: https://arxiv.org/abs/2603.21669
* หน้าโครงการ: https://prm-as-a-judge.github.io/
* โค้ด: https://github.com/Yuheng2000/PRM-as-a-Judge
* ชุดข้อมูลมาตรฐาน: https://huggingface.co/datasets/yuheng2000/RoboPulse

1. ทำไมอัตราความสำเร็จแบบทวิภาคจึงไม่เพียงพอสำหรับการประเมินภารกิจระยะยาว?

ในการวิจัยปัญญาประดิษฐ์เชิงรูปธรรม (Embodied AI) ในปัจจุบัน การประเมินกลยุทธ์ยังคงพึ่งพาอัตราความสำเร็จแบบทวิภาคเป็นอย่างมาก สำหรับภารกิจระยะสั้นที่มีโครงสร้างชัดเจน ตัวบ่งชี้นี้สามารถให้การเปรียบเทียบที่เข้าใจได้ง่าย อย่างไรก็ตาม เมื่อภารกิจพัฒนากลายเป็นการดำเนินการที่ซับซ้อน ระยะยาว หลายขั้นตอน และมีการโต้ตอบสูง ปริมาณข้อมูลของอัตราความสำเร็จแบบทวิภาคก็ลดลงอย่างรุนแรง

ความไม่เพียงพอนี้แสดงให้เห็นชัดเจนในสองด้าน:
* ความละเอียดไม่เพียงพอ: ป้ายกำกับแบบทวิภาคสามารถตอบได้เพียงว่า “สุดท้ายสำเร็จหรือไม่” ไม่สามารถอธิบายความแตกต่างที่สำคัญภายในวิถีการทำงานได้ วิถีที่ใกล้จะสำเร็จแต่ล้มเหลวในขั้นตอนสุดท้าย กับวิถีที่เบี่ยงเบนจากเป้าหมายตั้งแต่เนิ่นๆ ต่างถูกบันทึกว่าล้มเหลวเหมือนกัน จึงบดบังความแตกต่างที่แท้จริงของวิธีการต่างๆ ในด้านความลึกของการก้าวหน้าภารกิจ
* ความสามารถในการวินิจฉัยมีจำกัด: อัตราความสำเร็จไม่สามารถอธิบายได้ว่าหุ่นยนต์ “สำเร็จได้อย่างไร” หรือ “ล้มเหลวเพราะอะไร” การดำเนินการที่ราบรื่นและมีประสิทธิภาพ กับวิถีที่สำเร็จได้ด้วยความยากลำบากโดยอาศัยการแก้ไขซ้ำซ้อนหลายครั้ง อาจให้ผลลัพธ์เหมือนกันได้ ในทำนองเดียวกัน ลักษณะกระบวนการต่างๆ เช่น การหยุดนิ่ง การถอยหลัง การฟื้นตัวล้มเหลว ก็จะไม่ปรากฏในป้ายกำกับสุดท้ายเช่นกัน ซึ่งจำกัดความลึกของการปรับปรุงและการวิเคราะห์จุดคอขวดในภายหลัง

ดังนั้น สำหรับภารกิจระยะยาว ประเด็นสำคัญของการประเมินไม่ใช่เพียง “สำเร็จ” หรือ “ล้มเหลว” ที่จุดสิ้นสุดอีกต่อไป แต่รวมถึงว่ากระบวนการดำเนินการก้าวหน้าไปถึงขั้นตอนใด ก้าวหน้าอย่างมั่นคงหรือไม่ และตำแหน่งที่ล้มเหลวโดยเฉพาะเจาะจง

อำลาความสำเร็จแบบทวิภาค! PRM-as-a-Judge: แนวทางใหม่ในการตรวจสอบงานระยะยาวของหุ่นยนต์อย่างละเอียด
ภายใต้ป้ายกำกับแบบทวิภาคเดียวกัน ซ่อนตรรกะการดำเนินการทางกายภาพที่แตกต่างกันโดยสิ้นเชิง ความล้มเหลวอาจเกิดขึ้นในขั้นตอนใดก็ได้ของภารกิจ (ตั้งแต่ความก้าวหน้า 5% ถึง 99%) และความสำเร็จก็มีทั้งแบบ “ราบรื่นมีประสิทธิภาพ” และ “แก้ไขซ้ำแล้วซ้ำเล่า”

2. จากผลการตัดสินไปสู่การประเมินระดับกระบวนการ

เพื่อกู้คืนข้อมูลวิถีการทำงานที่ถูกบีบอัดด้วยป้ายกำกับแบบทวิภาค การวิจัยได้เปลี่ยนจุดเน้นของการประเมินจาก “ผลลัพธ์” ไปสู่ “กระบวนการ” ในสถานการณ์ทางกายภาพจริง นักวิจัยมักไม่สามารถเข้าถึงข้อมูลพิเศษ (เช่น ตำแหน่งและท่าทางที่แม่นยำ แรงสัมผัส) เหมือนในเครื่องจำลอง ดังนั้น งานวิจัยนี้จึงเลือกเส้นทางที่มีความหมายเชิงปฏิบัติมากกว่า: อธิบายความก้าวหน้าของภารกิจโดยตรงจากการวิวัฒนาการของสถานะภาพทางภาพ

กล่าวโดยเฉพาะ ผู้เขียนกำหนด ศักย์ความก้าวหน้า Φ ที่อยู่ในช่วง [0,1] ให้กับแต่ละสถานะภายใต้เงื่อนไขภารกิจที่กำหนด เมื่อได้การแสดงศักย์นี้แล้ว วิถีการดำเนินการที่เดิมสอดคล้องกับป้ายกำกับ “สำเร็จ/ล้มเหลว” เพียงอย่างเดียว ก็สามารถแปลงเป็นเส้นโค้งความก้าวหน้าอย่างต่อเนื่องที่เปลี่ยนแปลงตามเวลาได้ สิ่งนี้ทำให้นักวิจัยสามารถสังเกตสัญญาณกระบวนการที่สามารถเปรียบเทียบ แยกส่วน และวินิจฉัยได้: ปัญหาต่างๆ เช่น ความลึกของการก้าวหน้าของวิถี การถอยหลังซ้ำซ้อนในกระบวนการ หรือขั้นตอนใดที่มักหยุดนิ่ง ล้วนสามารถอธิบายได้อย่างชัดเจน

3. เครื่องมือประเมินแบบหนาแน่นที่เหมาะสมต้องเป็นไปตามเงื่อนไขอะไร?

ภายใต้กรอบงานนี้ ผู้เขียนกำหนดรูปแบบ “การประเมินแบบหนาแน่น” เป็นคุณสมบัติหลักสองประการ:
1. ความสอดคล้องในระดับมหภาค: ผลการประเมินต้องมีคุณสมบัติการบวกได้ตามเวลาและความสอดคล้องของเส้นทาง นั่นคือ สำหรับกระบวนการดำเนินการเดียวกัน ไม่ว่าจะถูกแบ่งออกเป็นช่วงเวลาสั้นๆ อย่างไร ความก้าวหน้าสะสมควรคงที่เหมือนกัน ไม่เลื่อนไหลตามวิธีการแบ่งส่วน
2. ความละเอียดในระดับจุลภาค: เครื่องมือประเมินต้องสามารถระบุการเปลี่ยนแปลงสถานะที่ละเอียดและเกี่ยวข้องกับภารกิจได้ ไม่ใช่เพียงตอบสนองต่อความแตกต่างทางภาพในระดับหยาบ

ผู้เขียนชี้ให้เห็นว่าใน การแสดงอิงตามศักย์ ที่พวกเขาใช้ ตราบใดที่เครื่องมือประเมินสามารถกำหนดค่าความก้าวหน้าแบบสเกลาร์ที่สามารถเปรียบเทียบได้ให้กับแต่ละสถานะในบริบทภารกิจที่กำหนด และกำหนดความก้าวหน้าในช่วงเวลาใดๆ ว่าเป็นผลต่างของศักย์ของสองสถานะ ความสอดคล้องในระดับมหภาคก็จะได้รับการรับรองโดยตรง เครื่องมือประเมิน PRM ถือเป็นการนำไปใช้ที่เป็นธรรมชาติและใช้งานได้จริงของการแสดงนี้

ในทางตรงกันข้าม วิธีการหลายวิธีที่อาศัยการเปรียบเทียบเชิงสัมพัทธ์หรือการวิเคราะห์เชิงตรรกะ (heuristic) ด้านความคล้ายคลึง มักขาดการแสดงศักย์ที่เป็นหนึ่งเดียวกันในระดับโลกเช่นนี้ จึงมีแนวโน้มที่จะเกิดการเลื่อนไหลของสเกลมากขึ้นในช่วงเวลาหรือเกณฑ์เปรียบเทียบที่ต่างกัน ส่วน ความละเอียดในระดับจุลภาค นั้นไม่สามารถรับประกันได้โดยอัตโนมัติจากคำจำกัดความเชิงโครงสร้างเพียงอย่างเดียว จำเป็นต้องผ่านการตรวจสอบด้วยเกณฑ์มาตรฐานการวินิจฉัยเฉพาะทาง

4. OPD: แยกวิถีการทำงานออกเป็นสัญญาณสามชั้นที่สามารถอธิบายได้

บนพื้นฐานของศักย์ความก้าวหน้า Φ ผู้เขียนได้สร้าง ระบบตัวบ่งชี้ OPD ซึ่งแยกวิถีการดำเนินการที่ซับซ้อนออกเป็นผลการตรวจสอบสามระดับ:
* ระดับผลลัพธ์: ตอบคำถามว่า “ก้าวหน้าไปถึงไหนแล้ว”
* ระดับกระบวนการ: ตอบคำถามว่า “ก้าวหน้าไปได้อย่างไร”
* ระดับการวินิจฉัย: ตอบคำถามว่า “ถ้าทำได้ไม่ดี ปัญหาอยู่ที่ไหน”

นี่คือรูปแบบผลลัพธ์หลักของ PRM-as-a-Judge
* ระดับผลลัพธ์ ใช้ตัวบ่งชี้สองตัวคือ อัตราครอบคลุมของจุดสำคัญ (Milestone Coverage) และ ความก้าวหน้าสูงสุด (Maximum Progress) เพื่ออธิบายความลึกของการก้าวหน้า
* ระดับกระบวนการ กำหนด ความยาวเส้นทางความก้าวหน้าถ่วงน้ำหนัก (Path-weighted Progress Length) เพื่อวัดประสิทธิภาพการก้าวหน้าและระดับความซ้ำซ้อน
* ระดับการวินิจฉัย ใช้ พื้นที่ความเสียดายสะสม (Cumulative Regret Area) และ อัตราส่วนการหยุดนิ่ง (Stagnation Ratio) เพื่ออธิบายกลไกความล้มเหลวทั่วไปสองประเภท ได้แก่ การถอยหลังและการหยุดนิ่ง

เมื่อเทียบกับอัตราความสำเร็จแบบเดี่ยว ค่าของ OPD อยู่ที่การเขียนกระบวนการดำเนินการใหม่เป็นสัญญาณพฤติกรรมที่มีโครงสร้างและสามารถวินิจฉัยได้

อำลาความสำเร็จแบบทวิภาค! PRM-as-a-Judge: แนวทางใหม่ในการตรวจสอบงานระยะยาวของหุ่นยนต์อย่างละเอียด
OPD แยกการดำเนินการหนึ่งครั้งออกเป็นสัญญาณสามชั้น: ระดับผลลัพธ์อธิบายความลึกของการก้าวหน้า ระดับกระบวนการอธิบายคุณภาพการดำเนินการ ระดับการวินิจฉัยอธิบายกลไกความล้มเหลว ตัวบ่งชี้หลักห้าตัวสอดคล้องกับความสามารถในการเข้าถึงขั้นตอน ความก้าวหน้าสูงสุด ประสิทธิภาพเส้นทาง ต้นทุนการถอยหลัง และสัดส่วนการหยุดนิ่งตามลำดับ

5. RoboPulse: เครื่องมือประเมินมีความสามารถในการแยกแยะระดับละเอียดจริงหรือไม่?

หลังจากกำหนดคุณสมบัติทางทฤษฎีและตัวบ่งชี้ระดับกระบวนการแล้ว ปัญหาสำคัญคือ: เครื่องมือประเมินสามารถรับรู้การเปลี่ยนแปลงทางกายภาพที่เล็กน้อยแต่เกี่ยวข้องกับภารกิจได้จริงหรือไม่?

เพื่อจุดประสงค์นี้ ผู้เขียนได้สร้าง เกณฑ์มาตรฐานการวินิจฉัย RoboPulse ภายใต้กรอบนี้ ความสอดคล้องในระดับมหภาคได้รับการรับรองโดยโครงสร้างจากรูปแบบศักย์แล้ว ในขณะที่ ความละเอียดในระดับจุลภาค จำเป็นต้องผ่านการทดลองภายใต้การควบคุม RoboPulse ได้รับการออกแบบรอบเป้าหมายนี้โดยเฉพาะ เพื่อตรวจสอบความสามารถในการแยกแยะที่แท้จริงของเครื่องมือประเมินต่อการเปลี่ยนแปลงสถานะระดับละเอียด

2. เกณฑ์มาตรฐานการประเมินระดับละเอียด: RoboPulse

เพื่อตรวจสอบความสามารถของโมเดลประเมินในการรับรู้การเปลี่ยนแปลงทางกายภาพที่ละเอียดอ่อน ทีมวิจัยได้สร้างเกณฑ์มาตรฐานการตัดสินความก้าวหน้าละเอียดพิเศษโดยเฉพาะ – RoboPulse หลักสำคัญของเกณฑ์มาตรฐานนี้คือการเปลี่ยนการประเมินความก้าวหน้าให้เป็นปัญหาการตัดสินแบบคู่: เมื่อกำหนดสถานะสองสถานะจากวิถีการดำเนินงานภารกิจเดียวกัน โมเดลประเมินจำเป็นต้องตัดสินว่าสถานะหลังเมื่อเทียบกับสถานะก่อนหน้าเป็น “ก้าวหน้า” หรือ “ถอยหลัง” การออกแบบนี้ไม่ขึ้นกับการกำหนดมาตรฐานความก้าวหน้าสัมบูรณ์ แต่เป็นการตรวจสอบความสามารถพื้นฐานของโมเดลประเมินในการระบุทิศทางความก้าวหน้าโดยตรง โดยเฉพาะความสามารถในการรักษาเสถียรภาพของการตัดสินเมื่อการเปลี่ยนแปลงทางกายภาพละเอียดอ่อนมาก

ในการสร้างเกณฑ์มาตรฐาน ทีมงานได้ใช้เฟรมสำคัญ (keyframes) เพื่อแบ่งวิถีดั้งเดิมออกเป็นขั้นตอนที่มีความหมายสอดคล้องกัน และกรองส่วนที่ไม่มีความก้าวหน้าแบบโมโนโทนิก (เช่น เกือบหยุดนิ่ง แกว่งไปมา) หรือส่วนที่ยากต่อการติดป้ายกำกับออก จากนั้นภายในช่วงที่ก้าวหน้าแบบโมโนโทนิกที่เหลือ ตามขนาดของช่วงความก้าวหน้าสัมพัทธ์ ได้ทำการสุ่มตัวอย่างคู่สถานะในสามระดับ ได้แก่ เล็ก (Small), กลาง (Medium), ใหญ่ (Large) อย่างเป็นระบบ

เกณฑ์มาตรฐาน RoboPulse มีขนาดที่น่าพอใจ ประกอบด้วยตัวอย่างการตัดสินความก้าวหน้าแบบคู่ทั้งหมด 1800 ตัวอย่าง ตัวอย่างเหล่านี้มาจากวิถีการดำเนินงาน 1622 วิถี ครอบคลุมภารกิจการดำเนินงานระยะยาวที่แตกต่างกัน 816 ภารกิจ และรวบรวมจากแหล่งข้อมูลที่แตกต่างกัน 7 แหล่ง เกณฑ์มาตรฐานยังครอบคลุมการตั้งค่าหลายแบบ เช่น หุ่นยนต์จริง สภาพแวดล้อมจำลอง ข้อมูลที่รวบรวมด้วย UMI และวิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์ เพื่อรับประกันความกว้างขวางและความแข็งแกร่งของการประเมิน

อำลาความสำเร็จแบบทวิภาค! PRM-as-a-Judge: แนวทางใหม่ในการตรวจสอบงานระยะยาวของหุ่นยนต์อย่างละเอียด
เกณฑ์มาตรฐาน RoboPulse รวบรวมแหล่งข้อมูลหลายแหล่งและตัวหุ่นยนต์ที่แตกต่างกัน เพื่อประเมินความสามารถของโมเดลในการแยกแยะการเปลี่ยนแปลงความก้าวหน้าในระดับจุลภาคอย่างเป็นระบบ

บนเกณฑ์มาตรฐานนี้ ทีมวิจัยได้เปรียบเทียบโมเดลประเมินที่ใช้ PRM (PRM-as-a-Judge) กับทางเลือกทั่วไปสองประเภท: ประเภทหนึ่งคือวิธีการที่ใช้ ความคล้ายคลึงทางภาพแบบ CLIP และอีกประเภทหนึ่งคือ โมเดลขนาดใหญ่หลายรูปแบบ (Multimodal Large Models) ทั่วไป เช่น Gemini, GPT-4V

ผลการทดลองแสดงให้เห็นว่าโมเดล PRM มีประสิทธิภาพโดยรวมดีกว่าในการตัดสินความก้าวหน้าละเอียด ตัวอย่างเช่น ความแม่นยำโดยรวมของโมเดล Robo-Dopamine อยู่ที่ 0.83 ในขณะที่ Gemini อยู่ที่ 0.66, Qwen2-VL-7B อยู่ที่ 0.59 และความแม่นยำของตัวแปร CLIP หลายแบบอยู่ในช่วง 0.46–0.59

ที่สำคัญกว่านั้น ในช่วง Small-hop (การเปลี่ยนแปลงเล็กน้อย) ที่ท้าทายที่สุด ข้อได้เปรียบของโมเดล PRM ขยายออกไปอีก ความแม่นยำเฉลี่ยของ Robo-Dopamine สูงถึง 0.80 ในขณะที่โมเดล PRM อีกสองตัวก็ทำได้ที่ 0.61 และ 0.63 ในทางตรงกันข้าม ความแม่นยำของ Gemini ในช่วงนี้อยู่ที่ 0.54 และ GPT-4V อยู่ที่ 0.47 นี่พิสูจน์ว่าเมื่อขนาดของการเปลี่ยนแปลงความก้าวหน้าละเอียดพอ โมเดลทั่วไปที่อาศัยเบาะแสความหมายระดับ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง