ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

2026年2月6日 pm5:38 • ข่าวสารอุตสาหกรรม AI • 242 views

ทีมจากมหาวิทยาลัยชิงหวาเปิดตัว Motus: แบบจำลองโลกเชิงกายภาพแบบรวมแรกที่รวมห้าแนวทางหลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

Motus ซึ่งเป็นแบบจำลองโลกแบบรวมที่เปิดตัวโดย Shengshu Technology ร่วมกับมหาวิทยาลัยชิงหวา เป็นครั้งแรกในแง่ของสถาปัตยกรรมที่รวมห้าแนวทางหลักของปัญญาประดิษฐ์เชิงกายภาพเข้าด้วยกัน ได้แก่ แบบจำลองการมองเห็น-ภาษา-การกระทำ (VLA) แบบจำลองโลก การสร้างวิดีโอ พลวัตผกผัน และการทำนายร่วมวิดีโอ-การกระทำ ทำให้เกิดวงจรปิดที่สมบูรณ์แบบของ “การมองเห็น-การคิด-การเคลื่อนไหว”

ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

ผู้รับผิดชอบหลักของโครงการคือ Bi Hongzhe นักศึกษาปริญญาโทปีที่ 2 และ Tan Hengkai นักศึกษาปริญญาเอกปีที่ 3 จากห้องปฏิบัติการ TSAIL ของศาสตราจารย์ Zhu Jun แห่งภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยชิงหวา

ในการทดสอบที่ครอบคลุม 50 งานทั่วไป อัตราความสำเร็จสัมบูรณ์ของ Motus สูงกว่าแบบจำลองระดับแนวหน้าของโลกอย่าง Pi-0.5 มากกว่า 35% โดยสูงสุดถึง 40% ทำให้หุ่นยนต์ที่ควบคุมโดย Motus มีความสามารถในการทำนายอนาคต

ตัวอย่างเช่น ในงาน การตรวจสอบ Cloudflare เมื่อเผชิญกับเมาส์ที่มีพื้นผิวโค้งไม่สม่ำเสมอ แขนกลไม่เพียงแต่สามารถจดจำได้อย่างแม่นยำ แต่ยังสามารถเคลื่อนที่อย่างราบรื่นและต่อเนื่องตามระยะห่างระหว่างเมาส์กับกรอบการคลิกบนหน้าจอ และทำการคลิกได้อย่างแม่นยำ

ในงาน หมากรุกจีน (Kongming Chess) ที่ต้องการการให้เหตุผลหลายขั้นตอนในระยะยาว Motus แสดงให้เห็นถึงตรรกะวงจรปิดที่เข้มงวด ค่อยๆ แก้ไขเกมหมากรุกทีละขั้นตอน

ในงาน การพับเสื้อผ้า ที่ต้องจัดการกับวัตถุอ่อนนุ่ม กระบวนการภายใต้การควบคุมของ Motus ราบรื่นราวกับมีประสาทสัมผัสและความสามารถในการคาดการณ์ล่วงหน้าเหมือนมนุษย์

ทีมวิจัยเชื่อว่าการปรากฏตัวของ Motus เป็นการยืนยันกฎ Scaling Law ในด้านปัญญาประดิษฐ์เชิงกายภาพเป็นครั้งแรก ทำซ้ำความก้าวหน้าครั้งสำคัญเมื่อ GPT-2 ถูกกำหนดให้เป็น “ผู้เรียนหลายงานแบบไม่มีผู้ดูแล”

สถาปัตยกรรมเดียวรวมห้าแนวทาง

ในอดีต แบบจำลองแนวทางต่างๆ ในด้านปัญญาประดิษฐ์เชิงกายภาพ เช่น VLA, แบบจำลองโลก, การสร้างวิดีโอ, พลวัตผกผัน, การทำนายร่วมวิดีโอ-การกระทำ เป็นเรื่องยากที่จะบูรณาการเข้าด้วยกันอย่างเป็นระบบ จุดเด่นที่ใหญ่ที่สุดของ Motus คือการรวมห้าแนวทางเหล่านี้ไว้ในกรอบงานเดียว

เทคโนโลยีหลักคือสถาปัตยกรรม Mixture-of-Transformer (MoT) และกลไก Tri-model Joint Attention (การให้ความสนใจร่วมกันสามรูปแบบ) ซึ่งเทียบเท่ากับการรวม “ผู้เชี่ยวชาญ” สามคนเข้าด้วยกัน:
* ผู้เชี่ยวชาญด้านความเข้าใจ (สมอง): ใช้พื้นฐานจาก Qwen-VL รับผิดชอบในการทำความเข้าใจสภาพแวดล้อมและคำสั่ง
* ผู้เชี่ยวชาญด้านการสร้างวิดีโอ (จินตนาการ): ใช้พื้นฐานจาก Wan 2.2 รับผิดชอบในการคาดการณ์ภาพในอนาคต
* ผู้เชี่ยวชาญด้านการเคลื่อนไหว (สมองน้อย): รับผิดชอบในการควบคุมการเคลื่อนไหวเฉพาะ

ผ่าน Tri-model Joint Attention ผู้เชี่ยวชาญทั้งสามสามารถแลกเปลี่ยนข้อมูลในชั้นความสนใจเดียวกันได้แบบเรียลไทม์ มอบความสามารถวงจรปิด “การรับรู้-การคาดการณ์-การตัดสินใจ” ให้กับหุ่นยนต์

ใช้ Latent Action แก้ปัญหาข้อมูล

การฝึกแบบจำลองประเภทนี้เผชิญกับความท้าทายด้านข้อมูล: ข้อมูลจากหุ่นยนต์จริงมีราคาแพงและหายาก ในขณะที่วิดีโอจำนวนมหาศาลบนอินเทอร์เน็ตขาดป้ายกำกับการกระทำ วิธีแก้ปัญหาของ Motus คือการนำ Latent Action มาใช้

ทีมวิจัยใช้ เทคโนโลยี Optical Flow จับภาพวิถีการเคลื่อนไหวระดับพิกเซลในวิดีโอ และผ่าน กลไก Delta Action “แปล” การเปลี่ยนแปลงพิกเซลเหล่านี้ให้เป็นแนวโน้มการเคลื่อนไหวของหุ่นยนต์ ซึ่งคล้ายกับการให้หุ่นยนต์เรียนรู้ “ท่าทาง” โดยการสังเกตวิถีการเคลื่อนไหวในวิดีโอ ทำให้สามารถใช้ข้อมูลจากวิดีโออินเทอร์เน็ต วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์ ฯลฯ เพื่อสกัดความรู้เบื้องต้นเกี่ยวกับการโต้ตอบทางกายภาพทั่วไป

จากพีระมิดข้อมูลและ Latent Action Motus สร้างกระบวนการฝึกสามขั้นตอน:
1. การฝึกล่วงหน้าด้านการสร้างวิดีโอ: ใช้วิถีหุ่นยนต์หลายตัวและวิดีโอการทำงานของมนุษย์เพื่อปรับแต่งผู้เชี่ยวชาญด้านการสร้างวิดีโอ ทำให้สามารถสร้างวิดีโอการทำงานที่สมเหตุสมผลตามเฟรมเงื่อนไขและคำสั่งภาษา
2. การฝึกล่วงหน้าด้าน Latent Action: ในขณะที่แช่แข็งแบบจำลองการมองเห็น-ภาษา ใช้วิดีโอ ภาษา และ Latent Action ฝึกผู้เชี่ยวชาญทั้งสามพร้อมกันเพื่อฉีดความรู้เบื้องต้นเกี่ยวกับการเคลื่อนไหวทั่วไปอย่างเต็มที่
3. การปรับแต่งเฉพาะสำหรับโครงสร้าง: ใช้ข้อมูลจากหุ่นยนต์เป้าหมายจริงเพื่อปรับแต่ง Motus โดยรวม ทำให้สามารถปรับตัวให้เข้ากับงานปลายทางเฉพาะได้

Scaling Law ในโลกกายภาพ

ผลการทดลองแสดงให้เห็นว่า Scaling Law ได้รับการยืนยันในโลกกายภาพ ในเกณฑ์มาตรฐานการจำลอง RoboTwin 2.0 จำนวน 50 งานทั่วไป อัตราความสำเร็จเฉลี่ยของ Motus อยู่ที่ 88%

โดยเฉพาะอย่างยิ่งในงานยาก “การซ้อนชามสามใบ” อัตราความสำเร็จของ Motus เพิ่มขึ้นอย่างมากจากแบบจำลองฐานที่ต่ำกว่า 16% เป็น 95%

สิ่งที่สำคัญกว่าคือแนวโน้มที่แสดงโดย เส้นโค้งการขยายขนาด (Scaling Curves)

△ รูปบนคือเส้นโค้งการขยายขนาดของปริมาณข้อมูล รูปล่างคือเส้นโค้งการขยายขนาดของจำนวนงาน สีแดงคือ Motus สีน้ำเงินคือ Pi-0.5

เมื่อจำนวนงานฝึกเพิ่มขึ้น ประสิทธิภาพของแบบจำลองดั้งเดิม (Pi-0.5) ลดลงเนื่องจาก overfitting ในขณะที่ประสิทธิภาพของ Motus ยังคงเพิ่มขึ้นอย่างต่อเนื่อง สิ่งนี้พิสูจน์ว่าตราบใดที่สถาปัตยกรรมแบบจำลองมีความเป็นเอกภาพเพียงพอ และแหล่งข้อมูลมีความหลากหลายเพียงพอ ปัญญาประดิษฐ์เชิงกายภาพก็สามารถเกิดความสามารถในการปรับใช้ทั่วไปข้ามงานได้ เช่นเดียวกับแบบจำลองภาษาขนาดใหญ่

ใน การทดสอบหุ่นยนต์จริง Motus แสดงความสามารถในการปรับตัวที่ดีบนแพลตฟอร์มแขนกลต่างๆ เช่น AC-One และ Agilex-Aloha-2 โดยประสิทธิภาพการใช้ข้อมูลเมื่อเทียบกับแบบจำลองฐานเพิ่มขึ้น 13.55 เท่า

△ ซ้าย: การทดสอบแขนกล AC-One; ขวา: การทดสอบแขนกล Agilex-Aloha-2

แนะนำทีม

Motus เปิดตัวโดย Shengshu Technology และมหาวิทยาลัยชิงหวา ผู้เขียนร่วมคนแรกคือ:
* Bi Hongzhe: นักศึกษาปริญญาโทปีที่ 2 ห้องปฏิบัติการ TSAIL ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยชิงหวา วิจัยด้านแบบจำลองพื้นฐานปัญญาประดิษฐ์เชิงกายภาพ เคยได้รับรางวัลชนะเลิศการแข่งขันหุ่นยนต์สองแขน RoboTwin แบบหุ่นยนต์จริงใน CVPR2025
* Tan Hengkai: นักศึกษาปริญญาเอกปีที่ 3 ห้องปฏิบัติการ TSAIL ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยชิงหวา มุ่งเน้นวิจัยแบบจำลองโลกวิดีโอและแบบจำลองขนาดใหญ่เชิงกายภาพ เคยได้รับเหรียญเงิน NOI มีส่วนร่วมในโครงการสำคัญหลายโครงการ เช่น RDT, Vidar

ปัจจุบัน รหัสและน้ำหนักโมเดลของ Motus ได้รับการเปิดตัวเป็นโอเพนซอร์สแล้ว

นอกจากนี้ สมาชิกในทีมยังรวมถึง Xie Shenghao, Wang Zeyuan, Huang Shuhe, Liu Haitian และอื่นๆ ซึ่งทั้งหมดมาจากห้องปฏิบัติการ TSAIL มหาวิทยาลัยชิงหวา (กลุ่มวิจัยของศาสตราจารย์ Zhu Jun)

ในฐานะผู้เผยแพร่ร่วม การที่ Shengshu Technology เปิดตัว Motus เป็นโอเพนซอร์สครั้งนี้ยังแสดงให้เห็นถึงการวางแผนเชิงกลยุทธ์ในด้านแบบจำลองโลก Shengshu Technology เชื่อว่า แบบจำลองวิดีโอขนาดใหญ่เป็นเส้นทางหลักสู่ AGI เนื่องจากวิดีโอโดยธรรมชาติแล้วบรรจุกาลอวกาศทางกายภาพ ตรรกะเหตุผล และวิวัฒนาการแบบไดนามิกของโลกจริง การกำเนิดของ Motus เป็นผลลัพธ์สำคัญภายใต้แนวคิดทางเทคนิคนี้

Motus เป็นสัญลักษณ์ของการก้าวกระโดดของหุ่นยนต์จาก “การปฏิบัติงานเชิงกลไก” สู่ “ปัญญาประดิษฐ์แบบ end-to-end” และยังผลักดันให้อุตสาหกรรมทั้งหมดก้าวจากความก้าวหน้าทางเทคโนโลยีแบบจุดเดียวไปสู่การพัฒนาฐานรากแบบรวมเบื้องหลังคือปฏิกิริยาเคมีอันยิ่งใหญ่ที่เกิดจากความร่วมมือระหว่างอุตสาหกรรมและการศึกษา: ความเชี่ยวชาญสะสมลึกซึ้งของ Shengshu Technology ในด้านแบบจำลองขนาดใหญ่หลายรูปแบบ ร่วมกับความสามารถขั้นสูงของทีมมหาวิทยาลัยชิงหวาในด้านอัลกอริทึม ร่วมกันก่อให้เกิดแบบจำลองโลกแบบรวมนี้

ในความเป็นจริง การสำรวจของ Shengshu Technology และมหาวิทยาลัยชิงหวาในสาขานี้ก้าวหน้ากว่าอุตสาหกรรม ทีมงานเผยแพร่งานวิจัยเกี่ยวกับแบบจำลองวิดีโอเชิงกายภาพ Vidar ในเดือนกรกฎาคม 2025 ในขณะที่ Motus เสร็จสิ้นการเปิดตัวโอเพนซอร์สทั้งหมดและเผยแพร่เอกสารในเดือนธันวาคม 2025 ซึ่งล้วนแต่เร็วกว่าความก้าวหน้าในอุตสาหกรรมประเภทเดียวกัน

ปัจจุบัน Motus ได้เปิดตัวเป็นโอเพนซอร์สเต็มรูปแบบแล้ว

ที่อยู่เอกสาร:
https://arxiv.org/abs/2512.13030

ที่อยู่โครงการ:
https://motus-robotics.github.io/motus

ที่เก็บโอเพนซอร์ส:
https://github.com/thu-ml/Motus

น้ำหนักโมเดล:
https://huggingface.co/motus-robotics

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง