LeRobot v0.5.0 เปิดตัวครั้งใหญ่: รองรับหุ่นยนต์คล้ายมนุษย์ Unitree G1 อย่างเต็มรูปแบบ พร้อมความก้าวหน้าทั้งด้านระบบนิเวศฮาร์ดแวร์และความสามารถของอัลกอริทึม

ตั้งแต่เวอร์ชัน v0.4.0 โครงการได้รวม PR มากกว่า 200 รายการ และมี ผู้ร่วมพัฒนามากกว่า 50 ท่าน เข้ามาใหม่ ด้วยเหตุนี้ LeRobot v0.5.0 จึงเป็นการเปิดตัวที่ใหญ่ที่สุดเท่าที่เคยมีมา โดยมีการขยายขอบเขตอย่างมีนัยสำคัญในเกือบทุกทิศทางที่สำคัญ: รองรับหุ่นยนต์หลากหลายประเภทมากขึ้น (รวมถึงหุ่นยนต์ฮิวแมนนอยด์ตัวแรก), ผสานรวมโมเดลนโยบายเพิ่มเติม (รวมถึง VLA แบบออโต้รีเกรสซีฟที่กลับมา), จัดเตรียมเวิร์กโฟลว์การประมวลผลชุดข้อมูลที่เร็วขึ้น, รองรับสภาพแวดล้อมจำลองที่โหลดได้โดยตรงจาก Hub และฐานรหัสที่ทันสมัยบนพื้นฐานของ Python 3.12 และ Transformers v5 ไม่ว่าคุณจะฝึกฝนนโยบายในสภาพแวดล้อมจำลอง หรือปรับใช้แอปพลิเคชันบนฮาร์ดแวร์จริง v0.5.0 นำเสนอฟีเจอร์ใหม่ที่หลากหลายมาให้

สรุปย่อ

LeRobot v0.5.0 เพิ่มการรองรับ หุ่นยนต์ฮิวแมนนอยด์ Unitree G1 อย่างสมบูรณ์ (รวมถึงโมเดลควบคุมทั้งตัว) และแนะนำนโยบายใหม่ ซึ่งรวมถึง Pi0-FAST VLA แบบออโต้รีเกรสซีฟ และเทคนิค Real-Time Chunking (การแบ่งส่วนแบบเรียลไทม์) เพื่อการตอบสนองการอนุมานที่เร็วขึ้น นอกจากนี้ เวอร์ชันยังเพิ่ม การเข้ารหัสวิดีโอแบบสตรีมมิ่ง ซึ่งขจัดเวลารอระหว่างการบันทึกภารกิจ

นอกจากนี้ การเปิดตัวครั้งนี้ยังได้เปิดตัว EnvHub ซึ่งอนุญาตให้โหลดสภาพแวดล้อมจำลองโดยตรงจาก Hugging Face Hub ผสานรวม NVIDIA IsaacLab-Arena และอัปเกรดฐานรหัสให้ทันสมัยอย่างครอบคลุม รวมถึงการย้ายไปใช้ Python 3.12+, การปรับให้เข้ากับ Transformers v5 และการแนะนำ ระบบปลั๊กอินนโยบายของบุคคลที่สาม

ฮาร์ดแวร์: จำนวนหุ่นยนต์ที่รองรับเพิ่มขึ้นเป็นประวัติการณ์

LeRobot v0.5.0 ขยายขอบเขตของอุปกรณ์ฮาร์ดแวร์ที่รองรับอย่างมาก ครอบคลุมหลายแพลตฟอร์มตั้งแต่แขนกล หุ่นยนต์เคลื่อนที่ ไปจนถึงหุ่นยนต์ฮิวแมนนอยด์แบบเต็มตัว

หุ่นยนต์ฮิวแมนนอยด์ Unitree G1

การเพิ่มฮาร์ดแวร์ที่สำคัญที่สุดในการเปิดตัวครั้งนี้คือ การรองรับหุ่นยนต์ฮิวแมนนอยด์ Unitree G1 อย่างสมบูรณ์ นี่เป็นการผสานรวมหุ่นยนต์ฮิวแมนนอยด์ครั้งแรกของ LeRobot และรองรับฟังก์ชันการทำงานที่ครอบคลุม:

  • ความสามารถในการเคลื่อนไหว: สามารถเดิน นำทาง และเคลื่อนที่ในสภาพแวดล้อมได้
  • ความสามารถในการจัดการ: สามารถทำงานจัดการวัตถุที่ละเอียดอ่อนได้
  • การควบคุมระยะไกล: ควบคุม G1 ระยะไกลผ่านอินเทอร์เฟซเทเลออปเรชันที่ใช้งานง่าย
  • การควบคุมทั้งตัว: สามารถประสานการเดินและการจัดการเพื่อทำงานที่ซับซ้อนในโลกจริง

การเพิ่ม G1 ถือเป็นก้าวสำคัญของ LeRobot ในการก้าวไปสู่หุ่นยนต์อเนกประสงค์ — จากแขนกลบนโต๊ะไปสู่ ระบบปัญญาประดิษฐ์แบบมีตัวตนที่มีร่างกายครบถ้วน คุณสามารถลองทำตามเอกสารประกอบได้

LeRobot v0.5.0 เปิดตัวครั้งใหญ่: รองรับหุ่นยนต์คล้ายมนุษย์ Unitree G1 อย่างเต็มรูปแบบ พร้อมความก้าวหน้าทั้งด้านระบบนิเวศฮาร์ดแวร์และความสามารถของอัลกอริทึม

OpenArm และ OpenArm Mini

การเปิดตัวครั้งนี้เพิ่มการรองรับแขนกล OpenArm และอุปกรณ์เทเลออปเรชันคู่ OpenArm Mini OpenArm เป็นแขนกลที่มีประสิทธิภาพสูง ซึ่งตอนนี้ได้รับการผสานรวมกับ LeRobot อย่างสมบูรณ์ ในขณะที่ Mini ทำหน้าที่เป็นอุปกรณ์เทเลออปเรชันตามธรรมชาติของมัน

ทั้งสองรุ่นรองรับ การกำหนดค่าสองแขน ซึ่งสามารถใช้สร้างระบบแขนกลคู่เพื่อทำงานจัดการที่ซับซ้อนมากขึ้น

หุ่นยนต์เพิ่มเติม

ระบบนิเวศฮาร์ดแวร์ยังคงขยายตัวต่อไป:

  • Earth Rover: แพลตฟอร์มหุ่นยนต์เคลื่อนที่ตัวแรกที่ LeRobot รองรับ เหมาะสำหรับงานนำทางกลางแจ้งและการเคลื่อนที่บนพื้นดิน
  • OMX Robot: แพลตฟอร์มแขนกลใหม่ที่เพิ่มเข้ามา รองรับพารามิเตอร์กริปเปอร์ที่กำหนดค่าได้และฟังก์ชันการปรับเทียบ
  • การนำ SO-100/SO-101 มารวมเป็นหนึ่งเดียว: เรารวมการใช้งาน SO-100 และ SO-101 เข้าด้วยกันในฐานรหัสที่กระชับขึ้น (รวมถึงการกำหนดค่าสองแขน) ลดความซ้ำซ้อนของโค้ด บำรุงรักษาได้ง่ายขึ้น ในขณะที่ยังคงฟังก์ชันการทำงานเดิมไว้

มอเตอร์บัส CAN

ด้วยการเพิ่มการรองรับตัวควบคุมมอเตอร์ บัส CAN LeRobot ตอนนี้สามารถเชื่อมต่อกับแอคชูเอเตอร์ประสิทธิภาพสูงได้:

  • RobStride: ตัวควบคุมมอเตอร์แบบ CAN สำหรับแอปพลิเคชันที่ต้องการแรงบิดสูง
  • Damiao: ตัวควบคุมมอเตอร์บัส CAN อีกประเภทหนึ่ง ซึ่งขยายขอบเขตของฮาร์ดแวร์ที่เข้ากันได้เพิ่มเติม

นั่นหมายความว่า LeRobot ตอนนี้ไม่เพียงแต่รองรับแอคชูเอเตอร์ Dynamixel และ Feetech เท่านั้น แต่ยังสามารถขับเคลื่อน แอคชูเอเตอร์ระดับมืออาชีพ ได้มากขึ้นอีกด้วย

โมเดลนโยบาย: คลังโมเดลที่ขยายตัวอย่างต่อเนื่อง

การเปิดตัวครั้งนี้เพิ่ม นโยบายหรือเทคนิคใหม่ 6 รายการ ให้กับ LeRobot ซึ่งช่วยขับเคลื่อนการพัฒนาการเรียนรู้หุ่นยนต์โอเพนซอร์สต่อไป

Pi0-FAST: VLA แบบออโต้รีเกรสซีฟ

Pi0-FAST นำ โมเดล Vision-Language-Action (VLA) แบบออโต้รีเกรสซีฟ เข้ามาใน LeRobot และใช้วิธี FAST (Frequency-domain Action Sequence Tokenization)

ต่างจากวิธี Flow Matching ที่ Pi0 ใช้ Pi0-FAST ใช้ โมเดลผู้เชี่ยวชาญด้านการกระทำแบบออโต้รีเกรสซีฟที่ใช้ Gemma 300M เพื่อสร้างโทเคนการกระทำแบบแยกส่วน ซึ่งทำให้:

  • การทำโทเคน FAST: การกระทำถูกแปลงเป็นโทเคนเพื่อการถอดรหัสแบบออโต้รีเกรสซีฟ โดยใช้ตัวทำโทเคนการกระทำ FAST เฉพาะ
  • การถอดรหัสที่ยืดหยุ่น: สามารถปรับสมดุลระหว่างความเร็วในการอนุมานและคุณภาพของการกระทำผ่านพารามิเตอร์อุณหภูมิและจำนวนขั้นการถอดรหัสสูงสุด
  • เข้ากันได้กับ RTC: สามารถรวมกับเทคนิค Real-Time Chunking เพื่อการอนุมานที่เร็วขึ้น

Real-Time Chunking

Real-Time Chunking เป็นเทคนิคในขั้นตอนการอนุมานจาก Physical Intelligence ที่สามารถปรับปรุงความเร็วในการตอบสนองของนโยบายที่ใช้ Flow Matching อย่างมีนัยสำคัญ

วิธีดั้งเดิมต้องรอให้ลำดับการกระทำทั้งหมดสร้างเสร็จก่อนการวางแผนใหม่ ในขณะที่ RTC จะ รวมการทำนายใหม่เข้ากับการกระทำที่กำลังดำเนินอยู่อย่างต่อเนื่อง ทำให้พฤติกรรมของหุ่นยนต์ราบรื่นขึ้นและตอบสนองเร็วขึ้น

RTC ไม่ใช่นโยบายแบบสแตนด์อโลน แต่เป็นโมดูลเสริมที่สามารถใช้กับนโยบายต่างๆ เช่น ตระกูล Pi0, SmolVLA และ Diffusion

นี่เป็นการปรับปรุงที่สำคัญมากสำหรับการปรับใช้หุ่นยนต์จริง (ในสถานการณ์ที่ไวต่อความล่าช้า)

Wall-X

Wall-X เป็นนโยบาย VLA ใหม่ที่สร้างบนพื้นฐานของ Qwen2.5-VL และใช้วิธี Flow Matching สำหรับการทำนายการกระทำ

Wall-X

Wall-X รวม ความสามารถในการเข้าใจภาพและภาษาของ Qwen2.5-VL เข้ากับ หัวควบคุม Flow-matching เพื่อให้เกิด การควบคุมข้ามรูปแบบหุ่นยนต์

bash
pip install lerobot[wall_x]
lerobot-train
--policy.type=wall_x
--dataset.repo_id=lerobot/aloha_sim_insertion_human

X-VLA

X-VLA นำ โมเดล Vision-Language-Action ที่ใช้ Florence-2 เข้ามาใน LeRobot

โมเดลนี้สร้างบนพื้นฐานของ โมเดล Vision-Language Florence-2 ของ Microsoft ซึ่งเป็นตัวเลือกโมเดลพื้นฐานอีกทางหนึ่งสำหรับการเรียนรู้ของหุ่นยนต์ เพิ่มความหลากหลายของโมเดล

  • คู่มือการฝึก: https://hf.co/docs/lerobot/xvla
  • โมเดลพื้นฐาน: https://hf.co/lerobot/xvla-base

bash
pip install lerobot[xvla]
lerobot-train
--policy.type=xvla
--dataset.repo_id=lerobot/bimanual-so100-handover-cube

SARM

SARM มีเป้าหมายเพื่อแก้ไขปัญหา งานลำดับยาว ในการเรียนรู้ของหุ่นยนต์

ต่างจากวิธีดั้งเดิมที่ใช้สัญญาณความก้าวหน้าเชิงเส้นเดียว SARM สามารถ ทำนายทั้งเฟสงานและความก้าวหน้าภายในเฟสนั้นได้พร้อมกัน ทำให้สามารถอธิบายความก้าวหน้าของงานได้อย่างแม่นยำมากขึ้น และปรับปรุงประสิทธิภาพการฝึกสำหรับงานจัดการหลายขั้นตอนที่ซับซ้อน

  • เอกสาร: https://hf.co/docs/lerobot/sarm

การรองรับ PEFT

ตอนนี้คุณสามารถใช้ วิธีการปรับแต่งอย่างมีประสิทธิภาพด้านพารามิเตอร์ เช่น LoRA เพื่อปรับแต่งโมเดล Vision-Language-Action ขนาดใหญ่ได้ โดยไม่ต้องแก้ไขเวิร์กโฟลว์การฝึกหลัก

การกำหนดค่า PEFT จัดการในระดับนโยบาย ช่วยให้ผู้ใช้สามารถปรับโมเดลพื้นฐานขนาดใหญ่ให้เข้ากับหุ่นยนต์และงานเฉพาะได้ด้วยทรัพยากรการคำนวณที่น้อยลง

  • เอกสาร: https://hf.co/docs/lerobot/peft_training

bash
lerobot-train
--policy.type=pi0
--policy.peft_config.use_peft=true
--dataset.repo_id=lerobot/aloha_sim_insertion_human

ชุดข้อมูล: การบันทึกและการฝึกที่เร็วขึ้น

การเปิดตัวครั้งนี้มีการปรับปรุงเวิร์กโฟลว์การประมวลผลชุดข้อมูลครั้งสำคัญ ซึ่งช่วยเพิ่ม ความเร็วในการรวบรวมข้อมูลและการฝึก อย่างมีนัยสำคัญ

การเข้ารหัสวิดีโอแบบสตรีมมิ่ง

ในอดีตเมื่อบันทึกชุดข้อมูล แต่ละรอบจะต้องรอให้การเข้ารหัสวิดีโอเสร็จสิ้น ตอนนี้ ด้วย การเข้ารหัสวิดีโอแบบสตรีมมิ่ง เฟรมวิดีโอสามารถเข้ารหัสแบบเรียลไทม์ในขณะที่รวบรวมข้อมูล ทำให้เกิด เวลารอระหว่างรอบเป็นศูนย์ ระบบยังรองรับ การตรวจจับฮาร์ดแวร์เข้ารหัสอัตโนมัติ หาก GPU มีความสามารถในการเข้ารหัสวิดีโอ ระบบจะเปิดใช้งานโดยอัตโนมัติ

python
dataset = LeRobotDataset.create(
repo_id="my/dataset",
fps=30,
video_backend="auto",
streaming_encoding=True,
)

ประสิทธิภาพที่เพิ่มขึ้นอย่างมาก

ในการใช้งานระดับล่าง เราได้แก้ไขจุดคอขวดในการเข้าถึงข้อมูลและปรับโครงสร้างเวิร์กโฟลว์การประมวลผลภาพใหม่:

  • ความเร็วการฝึกภาพเพิ่มขึ้น 10 เท่า: ปรับปรุงเวิร์กโฟลว์การแปลงภาพและแก้ไขจุดคอขวดในการเข้าถึงข้อมูลที่ซ่อนอยู่
  • ความเร็วการเข้ารหัสเพิ่มขึ้น 3 เท่า: เปิดใช้งานการเข้ารหัสแบบขนานโดยค่าเริ่มต้น และปรับระดับการบีบอัดแบบไดนามิกตามประเภทข้อมูล
  • การใช้ CPU ที่สูงขึ้น: การใช้ทรัพยากรมีประสิทธิภาพมากขึ้นเมื่อบันทึกและสร้างชุดข้อมูล

เครื่องมือชุดข้อมูลใหม่

เครื่องมือแก้ไขชุดข้อมูลได้รับการปรับปรุงอย่างต่อเนื่อง:

  • การรองรับงานย่อย: สามารถติดป้ายกำกับงานย่อยภายในรอบได้ รองรับการเรียนรู้งานแบบลำดับชั้น
  • การแปลงภาพเป็นวิดีโอ: แปลงชุดข้อมูลภาพที่มีอยู่เป็นรูปแบบวิดีโอเพื่อเพิ่มประสิทธิภาพการจัดเก็บ และรองรับการรวมหลายรอบเข้าด้วยกันในไฟล์วิดีโอเดียวกัน
  • การดำเนินการแก้ไขเพิ่มเติม: เพิ่มเครื่องมือตรวจสอบชุดข้อมูลและแก้ไขงาน และแก้ไขการดำเนินการแยก, รวม, แก้ไขคุณลักษณะต่างๆ
  • ตัวเลือกการกำหนดค่าเพิ่มเติม: สามารถกำหนดรูปแบบการเข้ารหัสวิดีโอ, การตั้งค่าความทนทาน และขนาดบัฟเฟอร์เมตาดาต้าได้เอง

EnvHub: โหลดสภาพแวดล้อมจำลองจาก Hub

EnvHub อนุญาตให้ LeRobot โหลดสภาพแวดล้อมจำลองโดยตรงจาก Hugging Face Hub

ในอดีตจำเป็นต้องติดตั้งสภาพแวดล้อมในเครื่องและลงทะเบียนด้วยตนเอง ตอนนี้เพียงแค่ระบุที่เก็บ Hub ระบบจะดาวน์โหลดโค้ดสภาพแวดล้อมโดยอัตโนมัติและลงทะเบียนกับ Gymnasium เพื่อใช้สำหรับการฝึกและการประเมินโดยตรง สภาพแวดล้อม Hub ใช้ HubEnvConfig ซึ่งจะดาวน์โหลดและดำเนินการฟังก์ชัน make_env จากระยะไกล

bash
lerobot-train
--env.type=hub
--env.hub_path="username/my-custom-env"
--policy.type=act


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25277

Like (0)
Previous 12 hours ago
Next 11 hours ago

相关推荐