ความก้าวหน้าครั้งใหญ่ในการเคลื่อนไหวที่ละเอียดอ่อนของหุ่นยนต์! Physical Intelligence ใช้เทคโนโลยี RL token เรียนรู้การเสียบสายเน็ตเวิร์กและขันสกรูภายในเวลาเพียงไม่กี่สิบนาที

3 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

มีคนบอกว่า หุ่นยนต์เรียนรู้ช้า ทำท่าทางละเอียดไม่ได้ ส่งผลต่อความเร็วในการเข้าโรงงานขันน็อต ต่อไปปัญหานี้อาจจะไม่ใช่เรื่องอีกแล้ว

Physical Intelligence ในสาขา Embodied Intelligence ได้เปิดเผยความก้าวหน้าใหม่: โดยใช้วิธีการที่เรียกว่า “RL token” พวกเขาสามารถทำให้หุ่นยนต์เชี่ยวชาญการทำงานที่ละเอียดอ่อนอย่างยิ่ง เช่น เสียบสายแลน, ขันสกรูขนาดจิ๋ว, เสียบสายชาร์จ ได้ด้วยประสบการณ์ในโลกจริงเพียงสิบกว่าคนาทีหรือไม่กี่ชั่วโมง

ความก้าวหน้าครั้งใหญ่ในการเคลื่อนไหวที่ละเอียดอ่อนของหุ่นยนต์! Physical Intelligence ใช้เทคโนโลยี RL token เรียนรู้การเสียบสายเน็ตเวิร์กและขันสกรูภายในเวลาเพียงไม่กี่สิบนาที

ในปีที่ผ่านมา หุ่นยนต์สามารถทำงานหยาบๆ ได้หลายอย่าง เช่น พับผ้า ถือจาน แต่พวกมันไม่เก่งเลยในงานที่ต้องการความแม่นยำสูง ตัวอย่างเช่น “หยิบไขควง” เป็นเรื่องง่าย แต่ “นำไขควงมาจับคู่กับสกรูขนาดเล็กมากได้พอดี” นั้นยากมาก ในสภาพแวดล้อมโรงงานจริง การแสวงหาความแม่นยำ ความคล่องแคล่ว และความเร็วนี้แหละคือสิ่งที่ประนีประนอมไม่ได้มากที่สุด และเป็นส่วนที่ยากที่สุดของงานใช้แรงกาย

ในอดีต หากต้องการให้หุ่นยนต์เรียนรู้งานละเอียดเช่นนี้ วิศวกรจำเป็นต้องฝึกฝน “สมองหลัก” ขนาดใหญ่ของหุ่นยนต์ (ซึ่งก็คือโมเดลใหญ่ที่ประมวลผลข้อมูลทั้งหมด) ใหม่อีกครั้ง ซึ่งไม่เพียงแต่ต้องใช้การคำนวณมหาศาล แต่ยังไม่มีประสิทธิภาพอีกด้วย

Physical Intelligence เสนอแนวคิดใหม่: ไม่ต้องฝึกฝนสมองหลักทั้งหมดใหม่ แต่เพิ่มโมดูล “เสริม” ที่รับผิดชอบเฉพาะท่าทางละเอียดอ่อน นั่นคือ RL token

ด้วยวิธีนี้ ความเร็วของหุ่นยนต์ในขั้นตอนที่ละเอียดที่สุดของแต่ละงานสามารถเพิ่มขึ้นเป็น 3 เท่าของเดิม และเร็วกว่าการที่มนุษย์ควบคุมหุ่นยนต์จากระยะไกลเสียอีก

Physical Intelligence ระบุว่า “การพัฒนาอย่างต่อเนื่องจากประสบการณ์” จะเป็นความสามารถหลักของโมเดลใหญ่หุ่นยนต์ในโลกจริงในอนาคต และเทคโนโลยี RLT ทำให้โมเดลของพวกเขาเข้าใกล้เป้าหมาย “เรียนรู้ไปทำงานไปโดยตรงในตำแหน่งงาน” มากขึ้นอีกขั้น

หลักการทางเทคนิค

ก่อนหน้านี้ Physical Intelligence ได้พิสูจน์แล้วว่า ผ่านวิธีการที่เรียกว่า Recap โมเดลการมองเห็น-ภาษา-การกระทำ (VLA) สามารถเรียนรู้จากประสบการณ์ด้วยการเรียนรู้แบบเสริมแรง (Reinforcement Learning) แต่ Recap เน้นแก้ปัญหาการเรียนรู้แบบเสริมแรงขนาดใหญ่สำหรับงานที่มีวงจรยาว ในทางปฏิบัติแล้ว ความต้องการที่พบบ่อยกว่าคือการให้หุ่นยนต์ใช้ข้อมูลเพียงไม่กี่ชั่วโมงหรือแม้แต่ไม่กี่นาที เพื่อเอาชนะขั้นตอนเฉพาะที่ยากเป็นพิเศษของทักษะบางอย่างได้อย่างรวดเร็ว

ตัวอย่างเช่น หากหุ่นยนต์ต้องการประกอบด้วยไขควงอย่างแม่นยำมาก ก็สามารถปรับแต่งเพียงแค่การกระทำเฉพาะ “นำไขควงมาจับคู่กับสกรู” เท่านั้น ซึ่งมีประสิทธิภาพมากกว่าการปรับแต่งโมเดลใหญ่ VLA แบบ end-to-end ทั้งหมด การฝึกฝนแบบปรับตัวได้แม่นยำเช่นนี้ สามารถทำได้แม้ในขณะที่หุ่นยนต์ถูกใช้งานจริง โดยเรียนรู้ไปทำงานไป

ในอุดมคติแล้ว ความสามารถในการวิวัฒนาการนี้ควรเกิดขึ้นภายใน “สมอง” ของหุ่นยนต์แบบเรียลไทม์ และสามารถดึงประสบการณ์การเรียนรู้สูงสุดจากทุกครั้งที่ลอง แต่การฝึกฝนโมเดล VLA ขนาดใหญ่ทั้งหมดแบบ end-to-end ภายในไม่กี่ชั่วโมง เป็นเรื่องที่ท้าทายอย่างมากทั้งในแง่ของพลังการคำนวณและการปฏิบัติ

แรงบันดาลใจหลักของ Physical Intelligence คือ: ให้โมเดล VLA ปล่อย “RL token” ออกมา ซึ่งเปรียบเสมือน “บทสรุปย่อสุด” ของกระบวนการคิดที่ซับซ้อนภายใน VLA จากนั้น นำ RL token นี้เป็นอินพุต ส่งไปยังโมเดลขนาดเล็กที่สามารถปรับแต่งด้วยการเรียนรู้แบบเสริมแรงแบบเรียลไทม์ได้

RL token นี้จะถูกส่งให้ Actor network ที่รับผิดชอบปล่อยการกระทำ และ Critic network ที่รับผิดชอบประเมินคะแนน ใช้ โครงข่ายทั้งสองนี้ได้รับการฝึกฝนด้วยวิธีการเรียนรู้แบบเสริมแรงแบบ off-policy ที่ประหยัดข้อมูล เนื่องจาก Actor และ Critic ประมวลผลข้อมูลสรุปที่ถูกบีบอัดสูง พวกมันสามารถออกแบบให้เป็นโครงข่ายประสาทเทียมที่เบามาก ฝึกฝนบนตัวหุ่นยนต์โดยตรง และอัปเดตได้หลายร้อยครั้งต่อวินาที ความเร็วในการตอบสนองสูงนี้ทำให้การเรียนรู้แบบเสริมแรงสามารถปรับพฤติกรรมของหุ่นยนต์ได้ทันทีหลังจากที่มันลองผิดลองถูกแต่ละครั้ง

เทคโนโลยี RLT ปรับเปลี่ยน VLA ก่อน: เพิ่มโครงสร้าง Transformer ที่ประกอบด้วย encoder และ decoder โครงสร้างนี้ได้รับการฝึกฝนให้ทำนายคุณลักษณะภายในของโมเดลใหญ่ผ่าน “คอขวดข้อมูล” (information bottleneck) เพื่อบีบอัด RL token ที่ย่อสุด token นี้รวบรวมข้อมูลสำคัญทั้งหมดที่ Actor และ Critic ของการเรียนรู้แบบเสริมแรงต้องการจากภาพที่สังเกตเห็นในปัจจุบัน ด้วยวิธีนี้ แม้แต่ Actor และ Critic network ที่เล็กมาก ก็สามารถเรียนรู้และปรับปรุงการกระทำโดยอิงจากความเข้าใจภายในที่ลึกซึ้งของโมเดลใหญ่ได้

หลังจากได้ RL token แล้ว นักวิจัยเพียงแค่ให้หุ่นยนต์สะสมข้อมูลในโลกจริงไม่กี่ชั่วโมงหรือแม้แต่ไม่กี่นาที ก็สามารถฝึกฝน Actor และ Critic network ขนาดเล็กผ่านการเรียนรู้แบบเสริมแรงออนไลน์ได้ เพื่อให้แน่ใจว่ากระบวนการมีประสิทธิภาพ พวกเขาออกแบบอย่างประณีต: Actor network ของการเรียนรู้แบบเสริมแรงออนไลน์ต้องทำงานในพื้นที่การกระทำ (action space) เดียวกับ VLA สอดคล้องกับพฤติกรรมก่อนหน้า (prior) ของ VLA และสามารถเรียนรู้จากข้อมูลโลกจริงที่มีจำกัดได้อย่างมีประสิทธิภาพ

วิธีการมีดังนี้:

ทำนาย “กลุ่มการกระทำ”: นโยบายการเรียนรู้แบบเสริมแรงทำนาย “กลุ่มการกระทำ” ต่อเนื่องกัน ซึ่งสอดคล้องกับโครงสร้างการกระทำที่ VLA คุ้นเคย ไม่ใช่ควบคุมการดำเนินการย่อยระดับล่างแต่ละครั้ง สิ่งนี้ทำให้นโยบายออนไลน์สามารถปรับการกระทำที่ต่อเนื่องและสำคัญซึ่งมีช่วงเวลายาวนานในงานได้โดยตรง
เรียนรู้ที่จะ “แก้ไข” ไม่ใช่ “ล้มล้าง”: Actor network จะรับการกระทำที่ VLA ทำนายไว้เป็นอินพุต ดังนั้นมันเรียนรู้วิธี “แก้ไขปรับเปลี่ยน” การกระทำของ VLA ไม่ใช่แทนที่ทั้งหมด ทิศทางการอัปเดตนโยบายถูกจำกัดไว้ใกล้กับการกระทำอ้างอิง ดังนั้นเมื่อการกระทำเดิมของ VLA เชื่อถือได้ การสำรวจของหุ่นยนต์จะไม่失控; จะเบี่ยงเบนจากแผนเดิมก็ต่อเมื่อ Critic network พบแผนที่ดีกว่าอย่างชัดเจนเท่านั้น
ป้องกัน “ลอกการบ้าน”: เพื่อป้องกันไม่ให้โมเดลเล็กในช่วงเริ่มต้นฝึกฝนเพียงแค่ลอกการกระทำของ VLA ได้มีการนำกลไก “reference action dropout” มาใช้ บังคับให้ Actor network รักษาความสามารถในการสร้างการกระทำอย่างอิสระ
ผนวกการแทรกแซงของมนุษย์: สามารถเลือกให้มนุษย์เข้ามาแทรกแซงกระบวนการอัปเดตการเรียนรู้แบบเสริมแรงโดยตรง เมื่อหุ่นยนต์ติดขัดหรือทำผิด การกระทำแก้ไขของมนุษย์จะถูกผนวกและส่งกลับไปยังการฝึกฝนโดยตรง

การออกแบบเหล่านี้ทำให้การเรียนรู้แบบเสริมแรงออนไลน์กลายเป็น “สูตรสำเร็จทั่วไป” ที่นำกลับมาใช้ใหม่ได้ ไม่จำเป็นต้องออกแบบทางวิศวกรรมเฉพาะสำหรับงานเฉพาะเจาะจง ก็สามารถติดตั้งเข้ากับโมเดล VLA ที่ฝึกฝนไว้ล่วงหน้าได้โดยตรง เพื่อรับมือกับงานต่างๆ กัน

พิชิต “มิลลิเมตรสุดท้ายที่สำคัญ” ของการทำงานละเอียด

นักวิจัยทดสอบ RLT ในสี่งานที่ท้าทายซึ่งต้องการความแม่นยำสูงมาก: ใช้ไขควงไฟฟ้าขันสกรู M3 ขนาดจิ๋วเข้าไปในแขนกลจักรกล, รัดสายรัด, เสียบสายแลน และเสียบสายไฟ

ในงานเหล่านี้ โมเดลพื้นฐานทั่วไปมักจะทำ “การกระทำหยาบๆ” ส่วนใหญ่ได้ดี แต่ความสำเร็จและความเร็วสุดท้ายของงาน มักขึ้นอยู่กับช่วงสำคัญที่ต้องมีการสัมผัสทางกายภาพมาก ในช่วงนี้ ความเบี่ยงเบนเพียงเล็กน้อยของตำแหน่ง มุม หรือจังหวะเวลา อาจนำไปสู่ความล้มเหลวโดยสิ้นเชิง

ยกตัวอย่างการขันสกรู หุ่นยนต์ต้องมีความแม่นยำในระดับย่อยมิลลิเมตรทั้งในตำแหน่งและมุมการหมุน เพื่อให้ปลายไขควงเข้าไปในร่องสกรูได้พอดี ปลายไขควงอยู่ห่างจากจุดจับของหุ่นยนต์ประมาณ 10 เซนติเมตร ความเบี่ยงเบนเล็กน้อยที่ข้อมือจะถูกขยายใหญ่ที่ปลายไขควง และจากมุมมองของกล้องที่ข้อมือหุ่นยนต์ กระบวนการสัมผัสที่ละเอียดอ่อนเหล่านี้ยากที่จะสังเกตเห็นได้ชัดเจน

ในทั้งสี่งานนี้ โมเดลใหญ่ VLA พื้นฐานทำได้ดีในระยะเริ่มต้น (เช่น หยิบไขควงหรือสายรัดได้มั่นคง) แต่จะล้มเหลวในระยะที่ต้องการความแม่นยำสูงสุด เทคโนโลยี RLT ออกแบบมาเพื่อแก้ไขจุดเจ็บปวดนี้โดยเฉพาะ: นักวิจัยใช้การเรียนรู้แบบเสริมแรงออนไลน์เพื่อพิชิต “ขั้นตอนยากๆ” เหล่านี้โดยเฉพาะ การทดสอบจริงแสดงให้เห็นว่า หุ่นยนต์สามารถปรับปรุงส่วนที่ยากที่สุดของแต่ละการกระทำได้ โดยใช้ข้อมูลโลกจริงเพียง 15 นาที

พวกเขานำ RLT ไปใช้กับช่วงสำคัญของงานทั้งสี่นี้ ประเมินผลในสองสถานการณ์: หนึ่งคือการกระทำสั้นๆ ที่สำคัญในการสอดใส่ (เสียบสายไฟและสายแลน) สองคืองานสมบูรณ์ที่มีช่วงเวลายาวนานและมีความแปรผันมากขึ้น

ผลลัพธ์แสดงให้เห็นว่า ในทั้งสี่งานทั้งหมด เมื่อเทียบกับโมเดลพื้นฐาน RLT มีการปรับปรุงอย่างมีนัยสำคัญทั้งในด้านความเร็วและอัตราความสำเร็จ รูปด้านล่างแสดงการเปรียบเทียบประสิทธิภาพก่อนและหลังการฝึกฝน ตัวชี้วัดคือ “ปริมาณงาน” (จำนวนครั้งที่ทำงานสำเร็จในทุกๆ 10 นาที)

กราฟเส้นความคืบหน้าด้านล่างแสดงกระบวนการเพิ่มปริมาณงานของ RLT ในงาน “เสียบสายแลน” การฝึกฝนทั้งหมดใช้เวลาประมาณ 2 ชั่วโมง โดยข้อมูลการกระทำที่หุ่นยนต์ดำเนินการจริงมีเพียง 15 นาที ที่เหลือใช้เวลาส่วนใหญ่สำหรับการรีเซ็ตอุปกรณ์และค่าใช้จ่ายในการคำนวณอื่นๆ

ที่น่าสังเกตคือ RLT ไม่เพียงแต่มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐานเท่านั้น ความเร็วในการดำเนินงานในงาน “เสียบสายแลน” ยังเร็วกว่าการที่มนุษย์ควบคุมจากระยะไกลอีกด้วย ดังที่แสดงในแผนภูมิแท่ง ในการทดสอบนโยบายการเรียนรู้แบบเสริมแรงขั้นสุดท้าย ครึ่งหนึ่งของความพยายามเร็วกว่าการสาธิตทั้งหมดของมนุษย์ในชุดข้อมูล

นี่บ่งชี้ว่า กระบวนการนำหุ่นยนต์ไปใช้ในสถานการณ์อุตสาหกรรมจริงอาจเร็วกว่าที่คาดไว้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/26689

การเรียนรู้ของหุ่นยนต์การเรียนรู้แบบเสริมกำลัง ปัญญาทางกายภาพ ปัญญาประดิษฐ์แบบฝังตัว โทเคน RL

Like (0)

0 0

เปิดเผยการเพิ่มประสิทธิภาพคอมไพเลอร์ MLIR: วิธีที่ Double Buffering และ Multithreading ช่วยซ่อนความล่าช้าและเร่งความเร็วแบบขนานในเคอร์เนล AI

Previous 3 hours ago

MoGraphGPT: สร้างฉากปฏิสัมพันธ์ซับซ้อนโดยไม่ต้องเขียนโค้ด ภาษาธรรมชาติ + การขีดเขียนช่วยให้ความคิดสร้างสรรค์เป็นภาพ

Next 3 hours ago

ข่าวสารอุตสาหกรรม AI

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

คำสำคัญ: การตัดแต่งโทเค็นภาพ, โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ, การฝึกฝนที่มีประสิทธิภาพ, ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน, การฝึกฝนแบบสองโหมด ในปีที่ผ่านมา โมเดลภาษาขนาดใหญ่…

2026年2月5日
110000
ข่าวสารอุตสาหกรรม AI

แนวหน้า AI Security: การโจมตี Jailbreak LLM ขับเคลื่อนด้วยการอนุมานเชิงเหตุผลและตัวเข้ารหัสแบบเบาบาง

ฉบับนี้มุ่งเน้นไปที่งานวิจัยล้ำสมัยด้านความปลอดภัยของ AI ที่เผยแพร่บน arXiv เมื่อวันที่ 9 กุมภาพันธ์ 2026 เนื้อหาหลักมีดังนี้: 🤖 กรอบ CFA2 ใช้การอนุมานเชิงสาเหตุและตัวเข้ารหัสอัตโน…

2026年2月9日
174000
ข่าวสารอุตสาหกรรม AI

จากเรือนจำสู่ยูนิคอร์น AI: Firmus ใช้เงินทุนหนี้ 69,000 ล้านสร้างโรงงานคอมพิวเตอร์สีเขียว 1.6GW

ยูนิคอร์นโครงสร้างพื้นฐาน AI ของออสเตรเลียดูดเงินทุนมหาศาล ตั้งเป้าสร้าง “สัตว์ร้าย” ข้อมูลขนาด 1.6GW เขาเคยติดคุก เคยทำคริปโตเคอร์เรนซี และตอนนี้หันมาลงทุนกับโครงสร้าง…

2026年2月14日
93000
ข่าวสารอุตสาหกรรม AI

MiniMax M2.5: โมเดลโอเพ่นซอร์ส 230B พารามิเตอร์ ใช้สถาปัตยกรรม MoE เปิดใช้งานเพียง 10B ประสิทธิภาพใกล้เคียง Claude Opus ลดต้นทุน 90%

MiniMax ได้เปิดตัวโมเดลโอเพ่นซอร์สรุ่นใหม่ M2.5 โดยทางการเรียกมันว่า “โมเดลแนวหน้าอันเป็นโอเพ่นซอร์สที่ออกแบบมาสำหรับผลิตภาพในโลกแห่งความเป็นจริง” ข้อมูลประสิทธิภาพ: เข…

2026年2月13日
159000
ข่าวสารอุตสาหกรรม AI

จากเวทีชุนหวั่นสู่สายตาทั่วโลก: หุ่นยนต์ Unitree ทำลายขีดจำกัดทางเทคโนโลยีด้วยการแสดงศิลปะการต่อสู้ของหุ่นยนต์ฮิวแมนนอยด์แบบกลุ่มใน ‘Wu BOT’

“ไซเบอร์กังฟู” ของ Unitree โด่งดังไปถึงต่างประเทศแล้ว เมื่อหุ่นยนต์เริ่มแสดง “กังฟูตัวจริง” เรื่องเล่าทางเทคโนโลยีในงานฉลองตรุษจีนก็เปลี่ยนไป ในช่วงหลายปีที…

2026年2月18日
100000

相关推荐

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

แนวหน้า AI Security: การโจมตี Jailbreak LLM ขับเคลื่อนด้วยการอนุมานเชิงเหตุผลและตัวเข้ารหัสแบบเบาบาง

จากเรือนจำสู่ยูนิคอร์น AI: Firmus ใช้เงินทุนหนี้ 69,000 ล้านสร้างโรงงานคอมพิวเตอร์สีเขียว 1.6GW