ตั้งแต่เวอร์ชัน v0.4.0 โครงการได้รวม PR มากกว่า 200 รายการ และมี ผู้ร่วมพัฒนามากกว่า 50 ท่าน เข้ามาใหม่ ด้วยเหตุนี้ LeRobot v0.5.0 จึงเป็นการเปิดตัวที่ใหญ่ที่สุดเท่าที่เคยมีมา โดยมีการขยายขอบเขตอย่างมีนัยสำคัญในเกือบทุกทิศทางที่สำคัญ: รองรับหุ่นยนต์หลากหลายประเภทมากขึ้น (รวมถึงหุ่นยนต์ฮิวแมนนอยด์ตัวแรก), ผสานรวมโมเดลนโยบายเพิ่มเติม (รวมถึง VLA แบบออโต้รีเกรสซีฟที่กลับมา), จัดเตรียมเวิร์กโฟลว์การประมวลผลชุดข้อมูลที่เร็วขึ้น, รองรับสภาพแวดล้อมจำลองที่โหลดได้โดยตรงจาก Hub และฐานรหัสที่ทันสมัยบนพื้นฐานของ Python 3.12 และ Transformers v5 ไม่ว่าคุณจะฝึกฝนนโยบายในสภาพแวดล้อมจำลอง หรือปรับใช้แอปพลิเคชันบนฮาร์ดแวร์จริง v0.5.0 นำเสนอฟีเจอร์ใหม่ที่หลากหลายมาให้
สรุปย่อ
LeRobot v0.5.0 เพิ่มการรองรับ หุ่นยนต์ฮิวแมนนอยด์ Unitree G1 อย่างสมบูรณ์ (รวมถึงโมเดลควบคุมทั้งตัว) และแนะนำนโยบายใหม่ ซึ่งรวมถึง Pi0-FAST VLA แบบออโต้รีเกรสซีฟ และเทคนิค Real-Time Chunking (การแบ่งส่วนแบบเรียลไทม์) เพื่อการตอบสนองการอนุมานที่เร็วขึ้น นอกจากนี้ เวอร์ชันยังเพิ่ม การเข้ารหัสวิดีโอแบบสตรีมมิ่ง ซึ่งขจัดเวลารอระหว่างการบันทึกภารกิจ
นอกจากนี้ การเปิดตัวครั้งนี้ยังได้เปิดตัว EnvHub ซึ่งอนุญาตให้โหลดสภาพแวดล้อมจำลองโดยตรงจาก Hugging Face Hub ผสานรวม NVIDIA IsaacLab-Arena และอัปเกรดฐานรหัสให้ทันสมัยอย่างครอบคลุม รวมถึงการย้ายไปใช้ Python 3.12+, การปรับให้เข้ากับ Transformers v5 และการแนะนำ ระบบปลั๊กอินนโยบายของบุคคลที่สาม
ฮาร์ดแวร์: จำนวนหุ่นยนต์ที่รองรับเพิ่มขึ้นเป็นประวัติการณ์
LeRobot v0.5.0 ขยายขอบเขตของอุปกรณ์ฮาร์ดแวร์ที่รองรับอย่างมาก ครอบคลุมหลายแพลตฟอร์มตั้งแต่แขนกล หุ่นยนต์เคลื่อนที่ ไปจนถึงหุ่นยนต์ฮิวแมนนอยด์แบบเต็มตัว
หุ่นยนต์ฮิวแมนนอยด์ Unitree G1
การเพิ่มฮาร์ดแวร์ที่สำคัญที่สุดในการเปิดตัวครั้งนี้คือ การรองรับหุ่นยนต์ฮิวแมนนอยด์ Unitree G1 อย่างสมบูรณ์ นี่เป็นการผสานรวมหุ่นยนต์ฮิวแมนนอยด์ครั้งแรกของ LeRobot และรองรับฟังก์ชันการทำงานที่ครอบคลุม:
- ความสามารถในการเคลื่อนไหว: สามารถเดิน นำทาง และเคลื่อนที่ในสภาพแวดล้อมได้
- ความสามารถในการจัดการ: สามารถทำงานจัดการวัตถุที่ละเอียดอ่อนได้
- การควบคุมระยะไกล: ควบคุม G1 ระยะไกลผ่านอินเทอร์เฟซเทเลออปเรชันที่ใช้งานง่าย
- การควบคุมทั้งตัว: สามารถประสานการเดินและการจัดการเพื่อทำงานที่ซับซ้อนในโลกจริง
การเพิ่ม G1 ถือเป็นก้าวสำคัญของ LeRobot ในการก้าวไปสู่หุ่นยนต์อเนกประสงค์ — จากแขนกลบนโต๊ะไปสู่ ระบบปัญญาประดิษฐ์แบบมีตัวตนที่มีร่างกายครบถ้วน คุณสามารถลองทำตามเอกสารประกอบได้

OpenArm และ OpenArm Mini
การเปิดตัวครั้งนี้เพิ่มการรองรับแขนกล OpenArm และอุปกรณ์เทเลออปเรชันคู่ OpenArm Mini OpenArm เป็นแขนกลที่มีประสิทธิภาพสูง ซึ่งตอนนี้ได้รับการผสานรวมกับ LeRobot อย่างสมบูรณ์ ในขณะที่ Mini ทำหน้าที่เป็นอุปกรณ์เทเลออปเรชันตามธรรมชาติของมัน
ทั้งสองรุ่นรองรับ การกำหนดค่าสองแขน ซึ่งสามารถใช้สร้างระบบแขนกลคู่เพื่อทำงานจัดการที่ซับซ้อนมากขึ้น
หุ่นยนต์เพิ่มเติม
ระบบนิเวศฮาร์ดแวร์ยังคงขยายตัวต่อไป:
- Earth Rover: แพลตฟอร์มหุ่นยนต์เคลื่อนที่ตัวแรกที่ LeRobot รองรับ เหมาะสำหรับงานนำทางกลางแจ้งและการเคลื่อนที่บนพื้นดิน
- OMX Robot: แพลตฟอร์มแขนกลใหม่ที่เพิ่มเข้ามา รองรับพารามิเตอร์กริปเปอร์ที่กำหนดค่าได้และฟังก์ชันการปรับเทียบ
- การนำ SO-100/SO-101 มารวมเป็นหนึ่งเดียว: เรารวมการใช้งาน SO-100 และ SO-101 เข้าด้วยกันในฐานรหัสที่กระชับขึ้น (รวมถึงการกำหนดค่าสองแขน) ลดความซ้ำซ้อนของโค้ด บำรุงรักษาได้ง่ายขึ้น ในขณะที่ยังคงฟังก์ชันการทำงานเดิมไว้
มอเตอร์บัส CAN
ด้วยการเพิ่มการรองรับตัวควบคุมมอเตอร์ บัส CAN LeRobot ตอนนี้สามารถเชื่อมต่อกับแอคชูเอเตอร์ประสิทธิภาพสูงได้:
- RobStride: ตัวควบคุมมอเตอร์แบบ CAN สำหรับแอปพลิเคชันที่ต้องการแรงบิดสูง
- Damiao: ตัวควบคุมมอเตอร์บัส CAN อีกประเภทหนึ่ง ซึ่งขยายขอบเขตของฮาร์ดแวร์ที่เข้ากันได้เพิ่มเติม
นั่นหมายความว่า LeRobot ตอนนี้ไม่เพียงแต่รองรับแอคชูเอเตอร์ Dynamixel และ Feetech เท่านั้น แต่ยังสามารถขับเคลื่อน แอคชูเอเตอร์ระดับมืออาชีพ ได้มากขึ้นอีกด้วย
โมเดลนโยบาย: คลังโมเดลที่ขยายตัวอย่างต่อเนื่อง
การเปิดตัวครั้งนี้เพิ่ม นโยบายหรือเทคนิคใหม่ 6 รายการ ให้กับ LeRobot ซึ่งช่วยขับเคลื่อนการพัฒนาการเรียนรู้หุ่นยนต์โอเพนซอร์สต่อไป
Pi0-FAST: VLA แบบออโต้รีเกรสซีฟ
Pi0-FAST นำ โมเดล Vision-Language-Action (VLA) แบบออโต้รีเกรสซีฟ เข้ามาใน LeRobot และใช้วิธี FAST (Frequency-domain Action Sequence Tokenization)
ต่างจากวิธี Flow Matching ที่ Pi0 ใช้ Pi0-FAST ใช้ โมเดลผู้เชี่ยวชาญด้านการกระทำแบบออโต้รีเกรสซีฟที่ใช้ Gemma 300M เพื่อสร้างโทเคนการกระทำแบบแยกส่วน ซึ่งทำให้:
- การทำโทเคน FAST: การกระทำถูกแปลงเป็นโทเคนเพื่อการถอดรหัสแบบออโต้รีเกรสซีฟ โดยใช้ตัวทำโทเคนการกระทำ FAST เฉพาะ
- การถอดรหัสที่ยืดหยุ่น: สามารถปรับสมดุลระหว่างความเร็วในการอนุมานและคุณภาพของการกระทำผ่านพารามิเตอร์อุณหภูมิและจำนวนขั้นการถอดรหัสสูงสุด
- เข้ากันได้กับ RTC: สามารถรวมกับเทคนิค Real-Time Chunking เพื่อการอนุมานที่เร็วขึ้น
Real-Time Chunking
Real-Time Chunking เป็นเทคนิคในขั้นตอนการอนุมานจาก Physical Intelligence ที่สามารถปรับปรุงความเร็วในการตอบสนองของนโยบายที่ใช้ Flow Matching อย่างมีนัยสำคัญ
วิธีดั้งเดิมต้องรอให้ลำดับการกระทำทั้งหมดสร้างเสร็จก่อนการวางแผนใหม่ ในขณะที่ RTC จะ รวมการทำนายใหม่เข้ากับการกระทำที่กำลังดำเนินอยู่อย่างต่อเนื่อง ทำให้พฤติกรรมของหุ่นยนต์ราบรื่นขึ้นและตอบสนองเร็วขึ้น
RTC ไม่ใช่นโยบายแบบสแตนด์อโลน แต่เป็นโมดูลเสริมที่สามารถใช้กับนโยบายต่างๆ เช่น ตระกูล Pi0, SmolVLA และ Diffusion
นี่เป็นการปรับปรุงที่สำคัญมากสำหรับการปรับใช้หุ่นยนต์จริง (ในสถานการณ์ที่ไวต่อความล่าช้า)
Wall-X
Wall-X เป็นนโยบาย VLA ใหม่ที่สร้างบนพื้นฐานของ Qwen2.5-VL และใช้วิธี Flow Matching สำหรับการทำนายการกระทำ
Wall-X
Wall-X รวม ความสามารถในการเข้าใจภาพและภาษาของ Qwen2.5-VL เข้ากับ หัวควบคุม Flow-matching เพื่อให้เกิด การควบคุมข้ามรูปแบบหุ่นยนต์
bash
pip install lerobot[wall_x]
lerobot-train
--policy.type=wall_x
--dataset.repo_id=lerobot/aloha_sim_insertion_human
X-VLA
X-VLA นำ โมเดล Vision-Language-Action ที่ใช้ Florence-2 เข้ามาใน LeRobot
โมเดลนี้สร้างบนพื้นฐานของ โมเดล Vision-Language Florence-2 ของ Microsoft ซึ่งเป็นตัวเลือกโมเดลพื้นฐานอีกทางหนึ่งสำหรับการเรียนรู้ของหุ่นยนต์ เพิ่มความหลากหลายของโมเดล
- คู่มือการฝึก: https://hf.co/docs/lerobot/xvla
- โมเดลพื้นฐาน: https://hf.co/lerobot/xvla-base
bash
pip install lerobot[xvla]
lerobot-train
--policy.type=xvla
--dataset.repo_id=lerobot/bimanual-so100-handover-cube
SARM
SARM มีเป้าหมายเพื่อแก้ไขปัญหา งานลำดับยาว ในการเรียนรู้ของหุ่นยนต์
ต่างจากวิธีดั้งเดิมที่ใช้สัญญาณความก้าวหน้าเชิงเส้นเดียว SARM สามารถ ทำนายทั้งเฟสงานและความก้าวหน้าภายในเฟสนั้นได้พร้อมกัน ทำให้สามารถอธิบายความก้าวหน้าของงานได้อย่างแม่นยำมากขึ้น และปรับปรุงประสิทธิภาพการฝึกสำหรับงานจัดการหลายขั้นตอนที่ซับซ้อน
- เอกสาร: https://hf.co/docs/lerobot/sarm
การรองรับ PEFT
ตอนนี้คุณสามารถใช้ วิธีการปรับแต่งอย่างมีประสิทธิภาพด้านพารามิเตอร์ เช่น LoRA เพื่อปรับแต่งโมเดล Vision-Language-Action ขนาดใหญ่ได้ โดยไม่ต้องแก้ไขเวิร์กโฟลว์การฝึกหลัก
การกำหนดค่า PEFT จัดการในระดับนโยบาย ช่วยให้ผู้ใช้สามารถปรับโมเดลพื้นฐานขนาดใหญ่ให้เข้ากับหุ่นยนต์และงานเฉพาะได้ด้วยทรัพยากรการคำนวณที่น้อยลง
- เอกสาร: https://hf.co/docs/lerobot/peft_training
bash
lerobot-train
--policy.type=pi0
--policy.peft_config.use_peft=true
--dataset.repo_id=lerobot/aloha_sim_insertion_human
ชุดข้อมูล: การบันทึกและการฝึกที่เร็วขึ้น
การเปิดตัวครั้งนี้มีการปรับปรุงเวิร์กโฟลว์การประมวลผลชุดข้อมูลครั้งสำคัญ ซึ่งช่วยเพิ่ม ความเร็วในการรวบรวมข้อมูลและการฝึก อย่างมีนัยสำคัญ
การเข้ารหัสวิดีโอแบบสตรีมมิ่ง
ในอดีตเมื่อบันทึกชุดข้อมูล แต่ละรอบจะต้องรอให้การเข้ารหัสวิดีโอเสร็จสิ้น ตอนนี้ ด้วย การเข้ารหัสวิดีโอแบบสตรีมมิ่ง เฟรมวิดีโอสามารถเข้ารหัสแบบเรียลไทม์ในขณะที่รวบรวมข้อมูล ทำให้เกิด เวลารอระหว่างรอบเป็นศูนย์ ระบบยังรองรับ การตรวจจับฮาร์ดแวร์เข้ารหัสอัตโนมัติ หาก GPU มีความสามารถในการเข้ารหัสวิดีโอ ระบบจะเปิดใช้งานโดยอัตโนมัติ
python
dataset = LeRobotDataset.create(
repo_id="my/dataset",
fps=30,
video_backend="auto",
streaming_encoding=True,
)
ประสิทธิภาพที่เพิ่มขึ้นอย่างมาก
ในการใช้งานระดับล่าง เราได้แก้ไขจุดคอขวดในการเข้าถึงข้อมูลและปรับโครงสร้างเวิร์กโฟลว์การประมวลผลภาพใหม่:
- ความเร็วการฝึกภาพเพิ่มขึ้น 10 เท่า: ปรับปรุงเวิร์กโฟลว์การแปลงภาพและแก้ไขจุดคอขวดในการเข้าถึงข้อมูลที่ซ่อนอยู่
- ความเร็วการเข้ารหัสเพิ่มขึ้น 3 เท่า: เปิดใช้งานการเข้ารหัสแบบขนานโดยค่าเริ่มต้น และปรับระดับการบีบอัดแบบไดนามิกตามประเภทข้อมูล
- การใช้ CPU ที่สูงขึ้น: การใช้ทรัพยากรมีประสิทธิภาพมากขึ้นเมื่อบันทึกและสร้างชุดข้อมูล
เครื่องมือชุดข้อมูลใหม่
เครื่องมือแก้ไขชุดข้อมูลได้รับการปรับปรุงอย่างต่อเนื่อง:
- การรองรับงานย่อย: สามารถติดป้ายกำกับงานย่อยภายในรอบได้ รองรับการเรียนรู้งานแบบลำดับชั้น
- การแปลงภาพเป็นวิดีโอ: แปลงชุดข้อมูลภาพที่มีอยู่เป็นรูปแบบวิดีโอเพื่อเพิ่มประสิทธิภาพการจัดเก็บ และรองรับการรวมหลายรอบเข้าด้วยกันในไฟล์วิดีโอเดียวกัน
- การดำเนินการแก้ไขเพิ่มเติม: เพิ่มเครื่องมือตรวจสอบชุดข้อมูลและแก้ไขงาน และแก้ไขการดำเนินการแยก, รวม, แก้ไขคุณลักษณะต่างๆ
- ตัวเลือกการกำหนดค่าเพิ่มเติม: สามารถกำหนดรูปแบบการเข้ารหัสวิดีโอ, การตั้งค่าความทนทาน และขนาดบัฟเฟอร์เมตาดาต้าได้เอง
EnvHub: โหลดสภาพแวดล้อมจำลองจาก Hub
EnvHub อนุญาตให้ LeRobot โหลดสภาพแวดล้อมจำลองโดยตรงจาก Hugging Face Hub
ในอดีตจำเป็นต้องติดตั้งสภาพแวดล้อมในเครื่องและลงทะเบียนด้วยตนเอง ตอนนี้เพียงแค่ระบุที่เก็บ Hub ระบบจะดาวน์โหลดโค้ดสภาพแวดล้อมโดยอัตโนมัติและลงทะเบียนกับ Gymnasium เพื่อใช้สำหรับการฝึกและการประเมินโดยตรง สภาพแวดล้อม Hub ใช้ HubEnvConfig ซึ่งจะดาวน์โหลดและดำเนินการฟังก์ชัน make_env จากระยะไกล
bash
lerobot-train
--env.type=hub
--env.hub_path="username/my-custom-env"
--policy.type=act
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25277
