หุ่นยนต์ดึงซิปยังต้อง “ใช้สมองคิด” เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

หุ่นยนต์รูดซิปต้อง “ใช้สมอง” ด้วยหรือ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1: คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งถึง 99.9%

หุ่นยนต์รูดซิป จำเป็นต้อง “คิด” หรือไม่?

ในช่วงไม่กี่ปีที่ผ่านมา จาก OpenVLA สู่ π0, π0.5 โมเดลขนาดใหญ่แบบฝังตัว (Embodied Large Models) ทำให้หุ่นยนต์สามารถเชื่อมโยงคำสั่งและการกระทำได้อย่างลื่นไหล

แต่เมื่อตำแหน่งของวัตถุเคลื่อนไปไม่กี่เซนติเมตร หรือสภาพแสงเปลี่ยนแปลงเล็กน้อย พวกมันมักจะ “ติดขัดทันที”

สาเหตุหลักก็คือ หุ่นยนต์เหล่านี้ส่วนใหญ่กำลังเล่น “เกมจับคู่ภาพ”: เห็นอะไร ก็ส่งออกการกระทำนั้นโดยตรง

พวกมันแค่จดจำวิถีการเคลื่อนไหว แต่ไม่ได้เข้าใจตรรกะทางกายภาพเบื้องหลังอย่างแท้จริง

ตอนนี้ กระบวนทัศน์ใหม่ที่ให้หุ่นยนต์ “คิดให้ชัดเจนก่อน แล้วจึงดำเนินการอย่างมั่นคง” ได้ถือกำเนิดขึ้นแล้ว

LaST-R1 ที่พัฒนาโดย Zhijian Dynamics, มหาวิทยาลัยปักกิ่ง และมหาวิทยาลัยจีนแห่งฮ่องกง เป็นครั้งแรกที่ฝังการให้เหตุผลทางกายภาพในพื้นที่แฝง (Latent Space) เข้าไปในวงจรปิดของการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning)

ในขณะเดียวกัน ในฐานะกระบวนทัศน์การฝึกอบรมภายหลัง (Post-training Paradigm) ของโมเดลพื้นฐาน LaST₀ ในโลกทางกายภาพ LaST₀ เป็นผู้บุกเบิกการให้เหตุผลแบบลูกโซ่ทางความคิดในพื้นที่แฝง (Latent Space Chain-of-Thought Reasoning) สำหรับหุ่นยนต์ และได้รับการยอมรับจาก ICML 2026 Spotlight (top 2.2%)

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

ประสิทธิภาพของมันน่าทึ่งแค่ไหน?

  • ระดับสมบูรณ์แบบในการจำลอง: บนเกณฑ์มาตรฐาน LIBERO ใช้เพียง 1 วิถี (Trajectory) ในการอุ่นเครื่อง อัตราความสำเร็จเฉลี่ยพุ่งถึง 99.9%;
  • การก้าวกระโดดของประสิทธิภาพในโลกจริง: ในงานที่ซับซ้อนในโลกจริง เช่น การหยิบจับและการหมุน สูงกว่าโมเดล SOTA ที่แข็งแกร่งที่สุดในปัจจุบัน π0.5 ถึง 22.5%;
  • เสริม “การให้เหตุผลทางกายภาพ”: แม้วัตถุ พื้นหลัง หรือแสงเปลี่ยนแปลงไป มันยังคงมั่นคง ไม่ใช่แค่การเลียนแบบการกระทำ แต่เรียนรู้ที่จะ “คิดเชิงกายภาพ” ในพื้นที่แฝงอย่างแท้จริง

แล้ว LaST-R1 ที่ทำให้หุ่นยนต์มี “สมองทางกายภาพ” นี้ ถูกสร้างขึ้นมาได้อย่างไร?

อัลกอริทึม LAPO ที่สามารถให้ผลตอบรับจากสิ่งแวดล้อมปรับทั้ง “วิธีคิด” และ “วิธีเคลื่อนไหว” พร้อมกันนั้น ซ่อนความลับอะไรไว้?

เราจะเจาะลึกบทความวิจัยนี้เพื่อสำรวจเทคโนโลยีดำ (Black Tech) การฝึกอบรมภายหลังที่ทำให้หุ่นยนต์ “คิดอย่างรอบคอบ” นี้

เพดานที่มองไม่เห็นของโมเดลขนาดใหญ่แบบฝังตัว: เลียนแบบได้ แต่ไม่เข้าใจฟิสิกส์

แม้ว่าจาก OpenVLA ถึง π0.5 โมเดลขนาดใหญ่แบบฝังตัวจะสามารถจัดแนวภาพ ภาษา และการกระทำในเบื้องต้นได้สำเร็จ

แต่ในการใช้งานจริง วงการอุตสาหกรรมพบ “ภาพหลอน” (Hallucination) ที่ร้ายแรง:

การเลียนแบบได้ ไม่ได้หมายความว่าจะสามารถสรุปความ (Generalize) ในโลกทางกายภาพได้

สิ่งนี้นำไปสู่ความสามารถในการสรุปความที่แย่มาก

ยกตัวอย่างเช่น หุ่นยนต์อาจจำวิถีการรูดซิปได้ 100 แบบ แต่ถ้ามุมของซิปเบี่ยงเบนไป 15 องศา หรือแสงเปลี่ยนไป การพึ่งพาการจับคู่แบบ “สังเกต → กระทำ” แบบ end-to-end จะล้มเหลว

ปัญหาหลักคือ โมเดล VLA ที่มีอยู่ขาดชั้นกลางของ“การคิด” — นั่นคือให้หุ่นยนต์ให้เหตุผลเกี่ยวกับโลกทางกายภาพก่อนที่จะลงมือทำ

ในอดีต วงการวิชาการ也曾尝试引入思维链 (CoT) เพื่อแก้ปัญหาการให้เหตุผล

แต่สำหรับการปฏิบัติการของหุ่นยนต์ การให้เหตุผลทางภาษามักจะช้าเกินไปและหยาบเกินไป คุณแทบจะไม่สามารถใช้คำอธิบาย “แรงต้านทานเล็กน้อยเมื่อซิปประกบกัน” ได้อย่างแม่นยำ

ความก้าวหน้าหลักของ LaST-R1 คือการละทิ้ง CoT ทางภาษาที่ไม่มีประสิทธิภาพ และหันมาสร้างห่วงโซ่การให้เหตุผลทางกายภาพในพื้นที่แฝง (Latent Space) แทน

มันไม่ให้หุ่นยนต์ “หลับตา” ส่งออกการกระทำเมื่อเห็นภาพอีกต่อไป แต่จะสร้างแบบจำลองโครงสร้างของฉาก ความสัมพันธ์ทางกายภาพของวัตถุ และการเปลี่ยนแปลงแบบไดนามิกในอนาคตในพื้นที่แฝงก่อน

อย่างไรก็ตาม การให้หุ่นยนต์เรียนรู้ “การคิด” แบบนี้ การเรียนรู้แบบเลียนแบบ (SFT) แบบคงที่นั้นไม่เพียงพอ

วิธีการเรียนรู้แบบเสริมกำลัง (RL) ในปัจจุบันส่วนใหญ่เปรียบเสมือนโค้ชที่เข้มงวดซึ่งดูแค่ผลลัพธ์: มันบอกแค่ว่าการกระทำสำเร็จหรือไม่ (ปรับพื้นที่การกระทำ – Action Space) แต่ไม่สามารถชี้แนะหุ่นยนต์ได้ว่า “เมื่อกี้คุณคิดยังไง”

เพื่อแก้ปัญหานี้ ทีมวิจัยได้เสนออัลกอริทึม LAPO (Latent-to-Action Policy Optimization) ซึ่งนำ “กระบวนการคิด” เข้าสู่วงจรปิดของการปรับให้เหมาะสมของการเรียนรู้แบบเสริมกำลังอย่างเป็นทางการ

มันให้ผลตอบรับจากสิ่งแวดล้อมไม่เพียงปรับการกระทำ แต่ยังปรับ “การคิดเชิงกายภาพ” ก่อนการกระทำของหุ่นยนต์ด้วย

ไม่เพียงฝึก “มือ” แต่ต้องซ่อม “สมอง”: จะเสริมการให้เหตุผลทางกายภาพของโมเดลหุ่นยนต์ได้อย่างไร?

เมื่อเร็วๆ นี้ Zhijian Dynamics, มหาวิทยาลัยจีนแห่งฮ่องกง และห้องปฏิบัติการสำคัญแห่งรัฐการประมวลผลข้อมูลมัลติมีเดีย คณะวิทยาการคอมพิวเตอร์ มหาวิทยาลัยปักกิ่ง ได้เสนอกรอบงานการเรียนรู้แบบเสริมกำลังการให้เหตุผลในพื้นที่แฝงทางกายภาพแบบปรับตัวสำหรับการปฏิบัติการของหุ่นยนต์ —

LaST-R1 (Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)

มันหวังว่าผ่านการฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลัง โมเดลขนาดใหญ่แบบฝังตัวจะไม่เพียงเรียนรู้ที่จะสร้างการกระทำ แต่ยังเรียนรู้ที่จะให้เหตุผลในพื้นที่แฝงที่มุ่งสู่โลกทางกายภาพก่อนลงมือทำ

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

ภาพรวมของ LaST-R1
(a) แตกต่างจากวิธีพื้นฐาน RL แบบวานิลลาที่ปรับเฉพาะการกระทำอย่างเคร่งครัด
(b) วิธีการของเราใช้ LAPO เพื่อปรับ Latent CoT แบบปรับตัวและกระบวนการดำเนินการทางกายภาพร่วมกัน โดยการเชื่อมต่อการให้เหตุผลทางปัญญากับการควบคุม LaST-R1 บรรลุ
(c) ความเร็วในการลู่เข้าที่เร็วขึ้น อัตราความสำเร็จในการจำลองที่สูงขึ้น
และ (d) ความสามารถในการสรุปความในโลกจริงที่แข็งแกร่งขึ้น

แตกต่างจาก RL ของโมเดลขนาดใหญ่แบบฝังตัวก่อนหน้านี้ที่ปรับ action space (พื้นที่การกระทำ คือชุดคำสั่งที่หุ่นยนต์สามารถดำเนินการได้ทั้งหมด) เป็นหลัก แนวคิดหลักของ LaST-R1 คือ:

หุ่นยนต์ไม่ควรทำนายการกระทำถัดไปจากภาพและคำสั่งโดยตรง แต่ควรเข้าใจโครงสร้างของฉาก ความสัมพันธ์ของวัตถุ และพลศาสตร์ทางกายภาพใน latent space (พื้นที่แฝง สามารถเข้าใจได้ว่าเป็น “ชั้นการรับรู้ที่ซ่อนอยู่” ในสมองของหุ่นยนต์) ก่อน แล้วจึงสร้างการกระทำที่มั่นคงและแม่นยำยิ่งขึ้น

กล่าวอีกนัยหนึ่ง:

LaST-R1 ไม่เพียงปรับ “มือ” ของหุ่นยนต์ แต่ยังปรับ “สมอง” ของมันด้วย

โดยเฉพาะอย่างยิ่ง LaST-R1 สร้างกรอบงานการฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลังที่มุ่งสู่กลยุทธ์ latent reasoning-before-acting โดยแกนหลักประกอบด้วยสามขั้นตอน:

1. การสร้างแบบจำลองการให้เหตุผลในพื้นที่แฝงทางกายภาพ (Physical Latent Reasoning)

  • โมเดลขนาดใหญ่แบบฝังตัวแบบดั้งเดิมมักสร้างการกระทำจากการสังเกต (observation) โดยตรง ขาดกระบวนการให้เหตุผลทางกายภาพที่สามารถสร้างแบบจำลองและปรับให้เหมาะสมก่อนการกระทำ
  • LaST-R1 นำ latent CoT มาใช้ในการให้เหตุผลของโมเดล: ก่อนสร้างการกระทำ ให้สร้างแบบจำลองฉากปัจจุบัน ความสัมพันธ์ของวัตถุ และพลศาสตร์ทางกายภาพในอนาคตในพื้นที่แฝงก่อน
  • เมื่อเทียบกับการให้เหตุผลทางภาษา การให้เหตุผลในพื้นที่แฝง (latent reasoning) เหมาะสมกว่าสำหรับการรองรับข้อมูลทางกายภาพที่ต่อเนื่อง มีความถี่สูง และยากต่อการทำให้เป็นภาษา

2. การปรับให้เหมาะสมร่วมกันของการให้เหตุผลในพื้นที่แฝงและการสร้างการกระทำด้วยการเสริมกำลัง (Latent-to-Action Policy Optimization)

  • RL ของโมเดลขนาดใหญ่แบบฝังตัวแบบดั้งเดิมส่วนใหญ่ปรับเฉพาะผลลัพธ์ของการกระทำ: action ใดให้ reward สูงกว่า ก็เสริม action นั้น
  • LaST-R1 เสนอ LAPO ซึ่งใช้รางวัลจากสิ่งแวดล้อมกับทั้ง latent reasoning และ action generation พร้อมกัน: วิถีที่ประสบความสำเร็จไม่เพียงเสริมการกระทำที่ถูกต้อง แต่ยังเสริม “การให้เหตุผลที่ดี” ก่อนการกระทำ; วิถีที่ล้มเหลวไม่เพียงแก้ไขผลลัพธ์ของการกระทำ แต่ยังปรับพื้นที่การให้เหตุผลทางกายภาพภายในแบบย้อนกลับ
  • ให้ reward หล่อหลอม reasoning process ที่อยู่เบื้องหลังการกระทำอย่างแท้จริง

3. กลไกการให้เหตุผลแบบ Latent CoT แบบปรับตัว (Adaptive Latent CoT)

  • การตัดสินใจในงานที่แตกต่างกันต้องการระยะเวลาในการคิดที่แตกต่างกัน
  • LaST-R1 นำ adaptive latent CoT มาใช้: ในสถานะที่เรียบง่าย โมเดลสามารถจบการให้เหตุผลและดำเนินการได้อย่างรวดเร็ว; ในขณะที่การปฏิบัติการแบบสัมผัสที่ซับซ้อน เช่น การรูดซิป การเช็ดแจกัน การเปิดฝาขวด จะได้รับการจัดสรรขอบเขตการให้เหตุผล (reasoning horizon) ที่ยาวขึ้น
  • เรียนรู้จากการโต้ตอบ: เมื่อไหร่ควรคิดมาก เมื่อไหร่ควรลงมือทำทันที

LaST-R1 เปลี่ยนแปลงวัตถุประสงค์ของการปรับให้เหมาะสมในการฝึกอบรมภายหลังของโมเดลขนาดใหญ่แบบฝังตัว: จากการปรับเฉพาะการกระทำ สู่การปรับการให้เหตุผลทางกายภาพที่อยู่เบื้องหลังการกระทำพร้อมกัน

ทีมวิจัยได้ทำการตรวจสอบอย่างเป็นระบบทั้งในสภาพแวดล้อมจำลองและหุ่นยนต์จริง

บนเกณฑ์มาตรฐานการจำลอง LIBERO LaST-R1 ใช้ 1 วิถี ในการอุ่นเครื่อง จากนั้นผ่านการปรับให้เหมาะสมด้วย RL แบบออนไลน์ ในที่สุดก็ได้อัตราความสำเร็จเฉลี่ย 99.9% และแสดงให้เห็นถึงการลู่เข้าที่เร็วกว่าและประสิทธิภาพสุดท้ายที่สูงกว่าเมื่อเทียบกับ Action-Only+PPO

ในการติดตั้งหุ่นยนต์จริง LaST-R1 ใช้ 30 วิถี ในการอุ่นเครื่อง จากนั้นผ่านการฝึกอบรมภายหลังด้วย RL เพิ่มอัตราความสำเร็จเฉลี่ยจาก 52.5% เป็น 93.75% ซึ่งสูงกว่า π0.5 (71.25%) ที่ใช้ 100 วิถีจากผู้เชี่ยวชาญ อย่างมีนัยสำคัญ

ที่สำคัญกว่านั้น ภายใต้เงื่อนไขการรบกวนในโลกจริง LaST-R1 ยังคงประสิทธิภาพลดลงเพียงเล็กน้อย แสดงให้เห็นว่าสิ่งที่มันเรียนรู้ไม่ใช่แค่วิถีการกระทำในฉากเดียว แต่เป็นความเข้าใจเชิงความหมายเชิงพื้นที่และพลศาสตร์ทางกายภาพที่สามารถถ่ายโอนได้มากกว่า

ผลลัพธ์ข้างต้นหมายความว่าจุดเน้นของการเรียนรู้แบบเสริมกำลังของโมเดลขนาดใหญ่แบบฝังตัวกำลังเปลี่ยนแปลงไป —

หุ่นยนต์ไม่ได้เรียนรู้ที่จะดำเนินการอย่างชำนาญมากขึ้นผ่าน RL เท่านั้น แต่เริ่มเรียนรู้ที่จะให้เหตุผลทางกายภาพอย่างสมเหตุสมผลมากขึ้นผ่าน RL

ความสำคัญของ LaST-R1 อยู่ที่การเสนอกระบวนทัศน์การฝึกอบรมภายหลังแบบใหม่สำหรับโมเดลขนาดใหญ่แบบฝังตัว ซึ่งช่วยให้ผลตอบรับจากสิ่งแวดล้อมสามารถหล่อหลอมทั้ง “วิธีคิด” และ “วิธีดำเนินการ” ของหุ่นยนต์ได้พร้อมกัน

เมื่อการให้เหตุผลในพื้นที่แฝงวิวัฒนาการจาก “สคริปต์คงที่” ของการเรียนรู้แบบเลียนแบบ ไปสู่ “แกนหลักที่พัฒนา” ของการเรียนรู้แบบเสริมกำลัง หุ่นยนต์จะสามารถหลุดพ้นจากการทำซ้ำข้อมูลสาธิตอย่างตายตัว

ผ่านการลองผิดลองถูกและการโต้ตอบที่ผิดพลาดซ้ำแล้วซ้ำเล่า พวกมันจะค่อยๆ เสริมสร้างความสามารถในการให้เหตุผลทางกายภาพของโมเดล

นี่อาจเป็นจุดเปลี่ยนสำคัญที่โมเดลขนาดใหญ่แบบฝังตัวก้าวจาก “การเลียนแบบ” ไปสู่ “การปรับตัว”

รายละเอียดกรอบงาน LaST-R1

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

โครงสร้างกรอบงาน LaST-R1
(a) LaST-R1 เป็นโมเดลแบบรวม รับข้อมูลอินพุตเป็นการสังเกตด้วยภาพและคำสั่งภาษา โมเดลพื้นฐานด้านภาพสร้างเป้าหมายแฝง (latent targets) ที่มีข้อจำกัดเชิงความหมายทางกายภาพ ใช้เพื่อนำทางการให้เหตุผลแบบลูกโซ่ความคิดในพื้นที่แฝง (latent CoT) ก่อนสร้างการกระทำ
(b) ในขั้นตอนการฝึกอบรมภายหลังด้วย RL แบบ LAPO LaST-R1 จะโต้ตอบกับสิ่งแวดล้อมในลักษณะวงจรปิด และเก็บเวกเตอร์แฝง การกระทำ และรางวัลลงในบัฟเฟอร์การเล่นซ้ำ (rollout buffer) เพื่อปรับเปลี่ยนพื้นที่แฝงและพื้นที่การกระทำร่วมกัน นอกจากนี้ โมเดลจะสร้างโทเค็นผ่านการเรียนรู้ตามความน่าจะเป็นในการทำนาย ทำให้เกิดการให้เหตุผลแบบปรับตัว ซึ่งปรับความยาวของการให้เหตุผลตามภารกิจ
(c) ด้วยวิธี LAPO LaST-R1 สามารถสร้างความยาวการให้เหตุผลแบบปรับตัวในงานที่หลากหลาย เพิ่มความสามารถในการสรุปความและความเสถียรในการดำเนินการ

กรอบงาน LaST-R1 ทั้งหมดสามารถสรุปได้เป็นสามขั้นตอนสำคัญ: ให้เหตุผลก่อน ปรับให้เหมาะสมทีหลัง กำหนดระยะเวลาคิดแบบไดนามิก

ขั้นตอนที่ 1: การให้เหตุผลในพื้นที่แฝงก่อนลงมือทำ (Latent Reasoning-before-Acting)

เมื่อเผชิญกับการสังเกตด้วยภาพและคำสั่งภาษาปัจจุบัน LaST-R1 จะไม่ส่งออกการกระทำโดยตรง แต่จะสร้างการฝังการให้เหตุผลในพื้นที่แฝง (latent reasoning embeddings) ก่อน เป็น “การคิดเชิงกายภาพในพื้นที่แฝง” ก่อนการกระทำ ใช้สำหรับสร้างแบบจำลองความสัมพันธ์ของวัตถุ สถานะในอนาคต และพลศาสตร์การปฏิบัติการ

จากนั้น โมเดลจะสร้างโทเค็นการกระทำ (action tokens) แบบขนานโดยอาศัยการให้เหตุผลในพื้นที่แฝง (latent reasoning) เหล่านี้

ปัญหาหลักที่ขั้นตอนนี้แก้ไขคือ: จะทำให้การสร้างการกระทำอยู่บนพื้นฐานของการให้เหตุผลทางกายภาพได้อย่างไร

ขั้นตอนที่ 2: LAPO ปรับพื้นที่แฝง (latent) และการกระทำ (action) พร้อมกัน

อัลกอริทึมหลักของ LaST-R1 คือ LAPO (Latent-to-Action Policy Optimization)

การเรียนรู้แบบเสริมกำลังของโมเดลขนาดใหญ่แบบฝังตัวแบบดั้งเดิมส่วนใหญ่ปรับการกระทำ ในขณะที่ LAPO รวมการให้เหตุผลในพื้นที่แฝงเข้าเป็นเป้าหมายของการเรียนรู้แบบเสริมกำลังด้วย ทำให้รางวัลจากสิ่งแวดล้อมหล่อหลอมทั้ง “วิธีคิด” และ “วิธีดำเนินการ” พร้อมกัน

สิ่งที่สำคัญที่สุดในบทความคือ latent-level ratio surrogate:

โดยที่ แทนลำดับแฝงที่สร้างโดยนโยบายเก่าระหว่างการเล่นซ้ำ แทนลำดับแฝงที่สร้างใหม่โดยนโยบายปัจจุบัน ควบคุมความกว้างของการกระจายแฝง

ความเข้าใจโดยสัญชาตญาณ: ถ้าวิถีใดประสบความสำเร็จ LaST-R1 จะไม่เพียงเสริมการกระทำที่สอดคล้องกัน แต่ยังเสริม “การให้เหตุผลที่มีคุณภาพ” ที่เกิดขึ้นก่อนการกระทำด้วย

จากนั้น LAPO จะรวมเวกเตอร์แฝงและการกระทำเข้าเป็น clipped objective เดียวกัน:

โดยที่ แสดงถึงการปรับการให้เหตุผลในพื้นที่แฝงและการสร้างการกระทำพร้อมกัน คือการประมาณค่าความได้เปรียบ (advantage estimate) ใช้เพื่อจำกัดขนาดของการอัปเดตนโยบาย

ในที่สุด เป้าหมายการฝึกอบรมทั้งหมดคือ:

ซึ่งหมายความว่า: การฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลังของ LaST-R1 ไม่เพียงปรับผลลัพธ์การกระทำของหุ่นยนต์ แต่ยังปรับกระบวนการให้เหตุผลทางกายภาพก่อนการกระทำด้วย

ขั้นตอนที่ 3: ห่วงโซ่ความคิดในพื้นที่แฝงแบบปรับตัว (Adaptive Latent CoT)

งานที่แตกต่างกันต้องการระยะเวลาในการคิดที่แตกต่างกัน

ดังนั้น LaST-R1 จึงนำ Adaptive Latent CoT มาใช้ โดยใช้โทเค็น ให้โมเดลตัดสินใจแบบไดนามิกว่าจะยุติการให้เหตุผลในพื้นที่แฝงและเริ่มสร้างการกระทำเมื่อใด

สิ่งนี้มีจุดมุ่งหมายเพื่อให้หุ่นยนต์จัดสรรงบประมาณการให้เหตุผลแบบปรับตัวตามความยากของงาน

กล่าวอีกนัยหนึ่ง LaST-R1 ไม่ให้หุ่นยนต์คิดในระยะเวลาคงที่ในทุกขั้นตอน แต่เรียนรู้ที่จะ: ดำเนินการอย่างรวดเร็วในสถานะที่เรียบง่าย และคิดเพิ่มอีกขั้นในสถานะที่ซับซ้อน

เพื่อปรับการสร้างโทเค็นตัวระบุการสิ้นสุดแบบปรับตัวนี้ เป้าหมายการฝึกอบรมจำเป็นต้องเพิ่ม L_end เพิ่มเติม

การวิเคราะห์ผลการทดลอง

1. การทดลองจำลอง: LIBERO บรรลุ 99.9%

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

LaST-R1 ได้รับการประเมินอย่างเป็นระบบบนเกณฑ์มาตรฐาน LIBERO ครอบคลุมชุดงาน Spatial, Object, Goal และ Long การทดลองดำเนินการภายใต้การตั้งค่า one-shot SFT warm-up จากนั้นเข้าสู่การฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลังแบบออนไลน์

ผลลัพธ์แสดงให้เห็นว่า LaST-R1 บรรลุ 99.8%/100.0%/100.0%/99.8% ในสี่ชุดงานตามลำดับ โดยมีอัตราความสำเร็จเฉลี่ยถึง 99.9% ซึ่งเหนือกว่าเกณฑ์พื้นฐานที่แข็งแกร่ง เช่น OpenVLA-OFT, π0.5, SimpleVLA-RL และ πRL

เมื่อเทียบกับ Action-Only + PPO ที่ปรับเฉพาะพื้นที่การกระทำ LaST-R1 + LAPO ลู่เข้าเร็วกว่าและมีอัตราความสำเร็จสุดท้ายสูงกว่า ซึ่งบ่งชี้ว่าการปรับให้เหมาะสมร่วมกันของการให้เหตุผลในพื้นที่แฝงและการสร้างการกระทำสามารถให้ “บัฟเฟอร์ทางปัญญา” ที่เสถียรกว่าสำหรับการเรียนรู้แบบเสริมกำลัง ซึ่งช่วยเพิ่มความสามารถในการปฏิบัติการที่ซับซ้อนและระยะยาว

2. การทดลองหุ่นยนต์จริง: จาก 52.5% เพิ่มเป็น 93.75%

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

LaST-R1 ได้รับการทดสอบในงานปฏิบัติการจริงสี่งาน ครอบคลุมการโต้ตอบทางกายภาพที่ซับซ้อน เช่น การสอดแทรกที่มีความแม่นยำสูงด้วยแขนเดียว การทำงานร่วมกันของสองแขน การเช็ดแบบสัมผัส และการหมุนต่อเนื่อง

เพื่อเน้นย้ำถึงผลของการฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลัง บทความได้เปรียบเทียบกับโมเดล SOTA π0.5: π0.5 ใช้ 100 วิถีจากผู้เชี่ยวชาญสำหรับการปรับแต่งแบบมีผู้สอน (SFT) ในขณะที่ LaST-R1 ใช้เพียง 30 วิถีในการอุ่นเครื่อง และปรับให้เหมาะสมต่อเนื่องผ่านการฝึกอบรมภายหลังด้วยการเรียนรู้แบบเสริมกำลัง

ผลลัพธ์แสดงให้เห็นว่า LaST-R1 เพิ่มอัตราความสำเร็จเฉลี่ยของหุ่นยนต์จริงจาก 52.5% หลังการอุ่นเครื่อง เป็น 93.75% ซึ่งสูงกว่า 71.25% ของ π0.5 อย่างมีนัยสำคัญ แสดงให้เห็นว่าข้อได้เปรียบของมันไม่ได้มีอยู่เฉพาะในสภาพแวดล้อมจำลอง แต่ยังสามารถถ่ายโอนไปสู่การโต้ตอบทางกายภาพในโลกจริง และสร้างกลยุทธ์การดำเนินการที่เสถียรยิ่งขึ้น

3. การทดลองสรุปความ: เปลี่ยนวัตถุ เปลี่ยนพื้นหลัง เปลี่ยนแสง ยังคงเสถียร

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

ในการตั้งค่านอกการกระจาย (OOD) ของ LIBERO ทีมวิจัยใช้ 9 งานที่เคยเห็นสำหรับการเรียนรู้แบบเสริมกำลังแบบออนไลน์ และสงวน 1 งานที่ไม่เคยเห็นสำหรับการทดสอบสรุปความ

ผลลัพธ์แสดงให้เห็นว่า Action-Only + PPO มีแนวโน้มที่จะเกิดประสิทธิภาพชะงักหรือลดลง ในขณะที่ LaST-R1 + LAPO สามารถปรับปรุงประสิทธิภาพในงาน OOD ได้อย่างต่อเนื่อง ซึ่งบ่งชี้ว่าการให้เหตุผลในพื้นที่แฝงช่วยให้โมเดลเรียนรู้ความหมายเชิงพื้นที่และพลศาสตร์ทางกายภาพที่สามารถถ่ายโอนได้มากขึ้น

หุ่นยนต์ดึงซิปยังต้อง "ใช้สมองคิด" เหรอ? มหาวิทยาลัยปักกิ่งและอื่นๆ เสนอ LaST-R1 ให้หุ่นยนต์คิดก่อนแล้วค่อยทำ อัตราความสำเร็จพุ่งทะยานถึง 99.9%

ในโลกจริง บทความได้ทดสอบการรบกวนสามประเภทเพิ่มเติม: วัตถุที่ไม่เคยเห็น การเปลี่ยนแปลงพื้นหลัง และสภาพแสง

เมื่อเทียบกับ SFT π0.5 แล้ว LaST-R1 ยังคงประสิทธิภาพลดลงน้อยกว่าภายใต้การเปลี่ยนแปลงเหล่านี้ แสดงให้เห็นว่ามันไม่ได้จดจำวิถีการกระทำในฉากการฝึกอย่างง่ายๆ แต่สร้างความสามารถในการให้เหตุผลทางกายภาพและการสร้างการกระทำที่แข็งแกร่งกว่า

บทสรุป: โมเดลขนาดใหญ่แบบฝังตัวไม่เพียงต้องลงมือทำ แต่ต้องเรียนรู้ “การคิดและให้เหตุผล”

ความสำคัญของ LaST-R1 ไม่ได้อยู่ที่การผลักดันอัตราความสำเร็จเฉลี่ยของ LIBERO ไปที่ 99.9% หรือการเพิ่มอัตราความสำเร็จของงานหุ่นยนต์จริงเป็น 93.75% เท่านั้น

ที่สำคัญกว่านั้น มันเสนอกระบวนทัศน์การฝึกอบรมภายหลังแบบใหม่สำหรับโมเดลขนาดใหญ่แบบฝังตัว: การเรียนรู้แบบเสริมกำลังไม่ควรปรับเฉพาะการกระทำของหุ่นยนต์ แต่ควรปรับกระบวนการให้เหตุผลทางกายภาพที่อยู่เบื้องหลังการกระทำด้วย

ในอดีต เราให้ความสำคัญมากขึ้นว่าหุ่นยนต์สามารถสร้างการกระทำที่ถูกต้องได้หรือไม่

ตอนนี้ LaST-R1 ถามต่อไปอีกขั้น: หุ่นยนต์สามารถให้เหตุผลทางกายภาพที่ถูกต้องก่อนลงมือทำได้หรือไม่?

ผ่าน LAPO รางวัลจากสิ่งแวดล้อมสามารถหล่อหลอมพื้นที่การให้เหตุผลในพื้นที่แฝงได้โดยตรง;

ผ่าน Adaptive Latent CoT หุ่นยนต์สามารถปรับระยะเวลาการคิดแบบไดนามิกตามความยากของงาน

ซึ่งหมายความว่า หุ่นยนต์ไม่ได้แค่ทำซ้ำวิถีการกระทำในข้อมูลสาธิตอีกต่อไป แต่ค่อยๆ เสริมสร้างการให้เหตุผลทางกายภาพของโมเดลผ่านการโต้ตอบ

จากมุมมองนี้ LaST-R1 ทำให้การเรียนรู้แบบเสริมกำลังของโมเดลขนาดใหญ่แบบฝังตัวเปลี่ยนจาก “เห็นแล้วลงมือ” ไปสู่ “คิดให้เข้าใจก่อน แล้วจึงดำเนินการอย่างมั่นคง”

เมื่อโมเดลขนาดใหญ่แบบฝังตัวเริ่มคิดในพื้นที่แฝง หุ่นยนต์อาจเข้าใกล้การปฏิบัติการอัตโนมัติที่แท้จริงอีกก้าวหนึ่ง

ลิงก์บทความ: https://arxiv.org/abs/2604.28192
หน้าหลักโครงการ: https://siriyep.github.io/last-r1/
ลิงก์โค้ด: https://github.com/CHEN-H01/LaST-R1


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34174

Like (0)
Previous 1 day ago
Next 1 day ago

相关推荐