GigaWorld-Policy เปิดตัวอย่างยิ่งใหญ่: ความเร็วในการอนุมานเพิ่มขึ้น 10 เท่า ประสิทธิภาพการฝึกเพิ่มขึ้น 10 เท่า อัตราความสำเร็จบนอุปกรณ์จริงพุ่งสูงขึ้น 30% เปิดศักราชใหม่ของการควบคุมหุ่นยนต์แบบเรียลไทม์ความถี่สูง

2026年3月29日 pm10:39 • ข่าวสารอุตสาหกรรม AI • 194 views

เมื่อเร็วๆ นี้ GigaAI ได้เปิดตัวโมเดล World-Action Model (WAM) ใหม่ล่าสุดที่มีชื่อว่า GigaWorld-Policy โมเดลนี้ได้แก้ไขความท้าทายด้านความเร็วในการอนุมานและประสิทธิภาพการฝึกฝนของโมเดลใหญ่เชิงรูปธรรม (Embodied Large Models) ที่มีอยู่ในปัจจุบัน โดยสามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญ: เพิ่มความเร็วในการอนุมาน 10 เท่า เพิ่มประสิทธิภาพการฝึกฝน 10 เท่า และเพิ่มอัตราความสำเร็จของงานบนหุ่นยนต์จริง 30% การเปิดตัว GigaWorld-Policy นับเป็นก้าวสำคัญที่สำคัญของหุ่นยนต์ที่ขับเคลื่อนโดยโมเดลโลก (World Model) สู่การควบคุมแบบวงจรปิดแบบเรียลไทม์ความถี่สูง

GigaWorld-Policy เปิดตัวอย่างยิ่งใหญ่: ความเร็วในการอนุมานเพิ่มขึ้น 10 เท่า ประสิทธิภาพการฝึกเพิ่มขึ้น 10 เท่า อัตราความสำเร็จบนอุปกรณ์จริงพุ่งสูงขึ้น 30% เปิดศักราชใหม่ของการควบคุมหุ่นยนต์แบบเรียลไทม์ความถี่สูง

หน้าโครงการ: https://gigaai-research.github.io/GigaWorld-Policy/
เอกสารวิจัย: https://arxiv.org/pdf/2603.17240
โค้ด: https://github.com/open-gigaai/giga-world-policy

ก้าวข้ามข้อจำกัดการเชื่อมโยงข้ามโหมด: สถาปัตยกรรม “เน้นการกระทำ” ช่วยเพิ่มความเร็วในการอนุมาน

สถาปัตยกรรม WAM แบบดั้งเดิมต้องสร้างทั้งภาพอนาคตและการกระทำพร้อมกันในระหว่างการอนุมาน การเชื่อมโยงข้ามโหมด (Cross-modal) ที่ลึกซึ้งทำให้เกิดความล่าช้าในการคำนวณสูง GigaWorld-Policy ได้เสนอกรอบแบบจำลองที่ “เน้นการกระทำเป็นศูนย์กลาง”

สถาปัตยกรรมนี้สร้างขึ้นบนพื้นฐานของโมเดลโลกน้ำหนักเบา GigaWorld-0.5 โดยทำการแมปการสังเกตภาพ สถานะของหุ่นยนต์ และลำดับการกระทำ ไปยังพื้นที่ฝังตัว (Embedding Space) เดียวกัน และใช้โครงข่ายหลัก Transformer เดียวในการสร้างแบบจำลองร่วมกัน แกนหลักคือกลยุทธ์แบบผสมผสาน “ฝึกฝนซับซ้อน อนุมานง่าย”:

ช่วงฝึกฝน: นำกลไกการปิดบังเชิงเหตุผล (Causal Masking) มาใช้ เพื่อสร้างแบบจำลองโทเค็นการกระทำและโทเค็นภาพอนาคตร่วมกัน ทำให้การทำนายการกระทำสามารถใช้สัญญาณกำกับดูแลความหนาแน่นสูงที่ได้จากพลวัตภาพอนาคต
ช่วงอนุมาน: ละทิ้งสาขาการทำนายวิดีโอ และคงไว้เฉพาะโมดูลสร้างการกระทำแบบน้ำหนักเบา

การออกแบบนี้หลีกเลี่ยงความซ้ำซ้อนเชิงโครงสร้างในการคำนวณ เมื่อเทียบกับโมเดลหลักในปัจจุบัน GigaWorld-Policy สามารถเพิ่มความเร็วในการอนุมานได้ 10 เท่า ในขณะที่ยังคงคุณภาพของผลลัพธ์นโยบายไว้ การแสดงลักษณะการต่อภาพหลายมุมมองที่กะทัดรัดยังช่วยลดการใช้หน่วยความจำกราฟิก (VRAM) อีกด้วย

ขุดค้นคุณค่าของข้อมูลวิดีโอ: วิธีการฝึกฝนแบบแบ่งชั้นช่วยเพิ่มประสิทธิภาพ

GigaWorld-Policy ใช้กระบวนการฝึกฝนที่มีประสิทธิภาพสามขั้นตอน เพื่อใช้ประโยชน์จากข้อมูลวิดีโออย่างเต็มที่:

การฝึกฝนล่วงหน้าเกี่ยวกับโลกทางกายภาพทั่วไป: ใช้ข้อมูลวิดีโอจำนวนมหาศาลจากอินเทอร์เน็ต เพื่อให้โมเดลสร้างความเข้าใจพื้นฐานเกี่ยวกับกฎทางกายภาพทั่วไปและพลวัตภาพ
การปรับแต่งอย่างละเอียดแบบ沉浸式 (Immersion) ในสถานการณ์เชิงรูปธรรม: นำวิดีโอการดำเนินงานจากหลายแหล่งที่ครอบคลุมมุมมองบุคคลที่หนึ่ง หุ่นยนต์จริง และการจำลอง มาใช้ เพื่อให้โมเดลเชี่ยวชาญในสถานการณ์การโต้ตอบเชิงรูปธรรม และเข้าใจกฎการเปลี่ยนแปลงของเวลาและพื้นที่ในพื้นที่เฉพาะ
การจัดแนวการกระทำด้วยตัวอย่างจำนวนน้อยมาก: บนพื้นฐานของโมเดลโลกที่ฝึกฝนล่วงหน้าแล้ว ใช้เพียงข้อมูลป้ายกำกับการกระทำของหุ่นยนต์จริงจำนวนเล็กน้อย ก็สามารถจัดแนวการทำนายการกระทำของโมเดลกับหุ่นยนต์ได้อย่างแม่นยำ และสร้างการแมปเชิงเหตุผล “การสังเกต-การกระทำ-ภาพอนาคต”

กรอบแบบแบ่งชั้นนี้ที่ใช้ “การฝึกฝนล่วงหน้าขนาดใหญ่สำหรับความสามารถพื้นฐาน + การปรับแต่งอย่างละเอียดด้วยตัวอย่างจำนวนน้อยสำหรับการปรับให้เข้ากับงาน” ช่วยเพิ่มประสิทธิภาพการฝึกฝนโดยรวมได้ 10 เท่า เมื่อเทียบกับแผนการฝึกฝนแบบดั้งเดิมของโมเดลการมองเห็น-ภาษา-การกระทำ

ผลการทดสอบจริงบนหุ่นยนต์: ได้ทั้งอัตราความสำเร็จและความสามารถแบบเรียลไทม์

ในการประเมินที่ครอบคลุมงานหุ่นยนต์ทั่วไปหลายประเภท เช่น การจับ การประกอบ การจัดระเบียบสิ่งของ GigaWorld-Policy ได้สร้างสมดุลระหว่างอัตราความสำเร็จและความเร็วในการอนุมาน

อัตราความสำเร็จเพิ่มขึ้น: อัตราความสำเร็จโดยเฉลี่ยของโมเดลในงานหุ่นยนต์จริงใกล้เคียง 85% เมื่อเทียบกับโมเดลเปรียบเทียบ อัตราความสำเร็จสัมบูรณ์เพิ่มขึ้นกว่า 30%
บรรลุการควบคุมแบบเรียลไทม์: เมื่อเทียบกับโมเดลในประเภทเดียวกัน GigaWorld-Policy สามารถเพิ่มความเร็วในการอนุมานได้ 10 เท่า ในขณะที่ลดการใช้หน่วยความจำกราฟิก ความสามารถในการตอบสนองในระดับมิลลิวินาทีทำให้สามารถรับมือกับการรบกวนแบบไดนามิกและข้อผิดพลาดในการดำเนินงานในสภาพแวดล้อมจริงได้ดีขึ้น ซึ่งนี่คือรากฐานของอัตราความสำเร็จที่สูงของโมเดล

การเปิดตัว GigaWorld-Policy เป็นการปรับโครงสร้างกรอบการเรียนรู้กลยุทธ์อัจฉริยะเชิงรูปธรรมแบบดั้งเดิมอีกครั้ง โดยใช้ประโยชน์จากการสร้างวิดีโออนาคตในระหว่างการฝึกฝนเพื่อให้ข้อจำกัดทางพลวัต และใช้การสร้างการกระทำแบบน้ำหนักเบาในระหว่างการอนุมาน เพื่อเพิ่มประสิทธิภาพและประสิทธิผล โมเดลนี้ได้ให้โซลูชันใหม่สำหรับการควบคุมหุ่นยนต์แบบเรียลไทม์และมีประสิทธิภาพในโลกทางกายภาพจริง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง