เมื่อเร็วๆ นี้ GigaAI ได้เปิดตัวโมเดล World-Action Model (WAM) ใหม่ล่าสุดที่มีชื่อว่า GigaWorld-Policy โมเดลนี้ได้แก้ไขความท้าทายด้านความเร็วในการอนุมานและประสิทธิภาพการฝึกฝนของโมเดลใหญ่เชิงรูปธรรม (Embodied Large Models) ที่มีอยู่ในปัจจุบัน โดยสามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญ: เพิ่มความเร็วในการอนุมาน 10 เท่า เพิ่มประสิทธิภาพการฝึกฝน 10 เท่า และเพิ่มอัตราความสำเร็จของงานบนหุ่นยนต์จริง 30% การเปิดตัว GigaWorld-Policy นับเป็นก้าวสำคัญที่สำคัญของหุ่นยนต์ที่ขับเคลื่อนโดยโมเดลโลก (World Model) สู่การควบคุมแบบวงจรปิดแบบเรียลไทม์ความถี่สูง

- หน้าโครงการ: https://gigaai-research.github.io/GigaWorld-Policy/
- เอกสารวิจัย: https://arxiv.org/pdf/2603.17240
- โค้ด: https://github.com/open-gigaai/giga-world-policy
ก้าวข้ามข้อจำกัดการเชื่อมโยงข้ามโหมด: สถาปัตยกรรม “เน้นการกระทำ” ช่วยเพิ่มความเร็วในการอนุมาน
สถาปัตยกรรม WAM แบบดั้งเดิมต้องสร้างทั้งภาพอนาคตและการกระทำพร้อมกันในระหว่างการอนุมาน การเชื่อมโยงข้ามโหมด (Cross-modal) ที่ลึกซึ้งทำให้เกิดความล่าช้าในการคำนวณสูง GigaWorld-Policy ได้เสนอกรอบแบบจำลองที่ “เน้นการกระทำเป็นศูนย์กลาง”
สถาปัตยกรรมนี้สร้างขึ้นบนพื้นฐานของโมเดลโลกน้ำหนักเบา GigaWorld-0.5 โดยทำการแมปการสังเกตภาพ สถานะของหุ่นยนต์ และลำดับการกระทำ ไปยังพื้นที่ฝังตัว (Embedding Space) เดียวกัน และใช้โครงข่ายหลัก Transformer เดียวในการสร้างแบบจำลองร่วมกัน แกนหลักคือกลยุทธ์แบบผสมผสาน “ฝึกฝนซับซ้อน อนุมานง่าย”:
- ช่วงฝึกฝน: นำกลไกการปิดบังเชิงเหตุผล (Causal Masking) มาใช้ เพื่อสร้างแบบจำลองโทเค็นการกระทำและโทเค็นภาพอนาคตร่วมกัน ทำให้การทำนายการกระทำสามารถใช้สัญญาณกำกับดูแลความหนาแน่นสูงที่ได้จากพลวัตภาพอนาคต
- ช่วงอนุมาน: ละทิ้งสาขาการทำนายวิดีโอ และคงไว้เฉพาะโมดูลสร้างการกระทำแบบน้ำหนักเบา
การออกแบบนี้หลีกเลี่ยงความซ้ำซ้อนเชิงโครงสร้างในการคำนวณ เมื่อเทียบกับโมเดลหลักในปัจจุบัน GigaWorld-Policy สามารถเพิ่มความเร็วในการอนุมานได้ 10 เท่า ในขณะที่ยังคงคุณภาพของผลลัพธ์นโยบายไว้ การแสดงลักษณะการต่อภาพหลายมุมมองที่กะทัดรัดยังช่วยลดการใช้หน่วยความจำกราฟิก (VRAM) อีกด้วย

ขุดค้นคุณค่าของข้อมูลวิดีโอ: วิธีการฝึกฝนแบบแบ่งชั้นช่วยเพิ่มประสิทธิภาพ
GigaWorld-Policy ใช้กระบวนการฝึกฝนที่มีประสิทธิภาพสามขั้นตอน เพื่อใช้ประโยชน์จากข้อมูลวิดีโออย่างเต็มที่:
- การฝึกฝนล่วงหน้าเกี่ยวกับโลกทางกายภาพทั่วไป: ใช้ข้อมูลวิดีโอจำนวนมหาศาลจากอินเทอร์เน็ต เพื่อให้โมเดลสร้างความเข้าใจพื้นฐานเกี่ยวกับกฎทางกายภาพทั่วไปและพลวัตภาพ
- การปรับแต่งอย่างละเอียดแบบ沉浸式 (Immersion) ในสถานการณ์เชิงรูปธรรม: นำวิดีโอการดำเนินงานจากหลายแหล่งที่ครอบคลุมมุมมองบุคคลที่หนึ่ง หุ่นยนต์จริง และการจำลอง มาใช้ เพื่อให้โมเดลเชี่ยวชาญในสถานการณ์การโต้ตอบเชิงรูปธรรม และเข้าใจกฎการเปลี่ยนแปลงของเวลาและพื้นที่ในพื้นที่เฉพาะ
- การจัดแนวการกระทำด้วยตัวอย่างจำนวนน้อยมาก: บนพื้นฐานของโมเดลโลกที่ฝึกฝนล่วงหน้าแล้ว ใช้เพียงข้อมูลป้ายกำกับการกระทำของหุ่นยนต์จริงจำนวนเล็กน้อย ก็สามารถจัดแนวการทำนายการกระทำของโมเดลกับหุ่นยนต์ได้อย่างแม่นยำ และสร้างการแมปเชิงเหตุผล “การสังเกต-การกระทำ-ภาพอนาคต”
กรอบแบบแบ่งชั้นนี้ที่ใช้ “การฝึกฝนล่วงหน้าขนาดใหญ่สำหรับความสามารถพื้นฐาน + การปรับแต่งอย่างละเอียดด้วยตัวอย่างจำนวนน้อยสำหรับการปรับให้เข้ากับงาน” ช่วยเพิ่มประสิทธิภาพการฝึกฝนโดยรวมได้ 10 เท่า เมื่อเทียบกับแผนการฝึกฝนแบบดั้งเดิมของโมเดลการมองเห็น-ภาษา-การกระทำ

ผลการทดสอบจริงบนหุ่นยนต์: ได้ทั้งอัตราความสำเร็จและความสามารถแบบเรียลไทม์
ในการประเมินที่ครอบคลุมงานหุ่นยนต์ทั่วไปหลายประเภท เช่น การจับ การประกอบ การจัดระเบียบสิ่งของ GigaWorld-Policy ได้สร้างสมดุลระหว่างอัตราความสำเร็จและความเร็วในการอนุมาน
- อัตราความสำเร็จเพิ่มขึ้น: อัตราความสำเร็จโดยเฉลี่ยของโมเดลในงานหุ่นยนต์จริงใกล้เคียง 85% เมื่อเทียบกับโมเดลเปรียบเทียบ อัตราความสำเร็จสัมบูรณ์เพิ่มขึ้นกว่า 30%
- บรรลุการควบคุมแบบเรียลไทม์: เมื่อเทียบกับโมเดลในประเภทเดียวกัน GigaWorld-Policy สามารถเพิ่มความเร็วในการอนุมานได้ 10 เท่า ในขณะที่ลดการใช้หน่วยความจำกราฟิก ความสามารถในการตอบสนองในระดับมิลลิวินาทีทำให้สามารถรับมือกับการรบกวนแบบไดนามิกและข้อผิดพลาดในการดำเนินงานในสภาพแวดล้อมจริงได้ดีขึ้น ซึ่งนี่คือรากฐานของอัตราความสำเร็จที่สูงของโมเดล

การเปิดตัว GigaWorld-Policy เป็นการปรับโครงสร้างกรอบการเรียนรู้กลยุทธ์อัจฉริยะเชิงรูปธรรมแบบดั้งเดิมอีกครั้ง โดยใช้ประโยชน์จากการสร้างวิดีโออนาคตในระหว่างการฝึกฝนเพื่อให้ข้อจำกัดทางพลวัต และใช้การสร้างการกระทำแบบน้ำหนักเบาในระหว่างการอนุมาน เพื่อเพิ่มประสิทธิภาพและประสิทธิผล โมเดลนี้ได้ให้โซลูชันใหม่สำหรับการควบคุมหุ่นยนต์แบบเรียลไทม์และมีประสิทธิภาพในโลกทางกายภาพจริง
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27758
