มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA

2026年2月26日 pm2:29 • การประเมินโมเดลขนาดใหญ่ • 263 views

ในการจัดอันดับ WorldArena ซึ่งเป็นเกณฑ์การประเมินที่เป็นที่ยอมรับในระดับโลกสำหรับสาขาปัญญาประดิษฐ์แบบฝังตัว (Embodied AI) โมเดลโลก Ctrl-World ที่พัฒนาโดยทีมของศาสตราจารย์ Chen Jianyu จากมหาวิทยาลัย Tsinghua ร่วมกับทีมของศาสตราจารย์ Chelsea Finn จากมหาวิทยาลัย Stanford ได้รับผลการประเมินที่โดดเด่น:

ได้รับการจัดอันดับที่ 1 ของโลกในด้านความสามารถโดยรวมสำหรับงานฝังตัว และเป็นอันดับหนึ่งในสี่มิติหลัก ได้แก่ ความสม่ำเสมอของตัววัตถุ (Subject Consistency), ความแม่นยำของวิถีการเคลื่อนที่ (Trajectory Accuracy), ความแม่นยำของความลึก (Depth Accuracy), และความสอดคล้องในการประเมินกลยุทธ์ (Policy Evaluation Consistency)
ได้รับการจัดอันดับที่ 2 ของโลกในด้านความสามารถในการสร้างวิดีโอ รองจาก Wan 2.6 ของ Alibaba และเหนือกว่าโมเดล Veo 3.1 ของ Google, Cosmos-Predict 2.5 ของ NVIDIA เป็นต้น
Ctrl-World กลายเป็นโมเดลโลกที่อยู่ในกลุ่มชั้นนำทั้งในสองมิติสำคัญคือ “คุณภาพการสร้างวิดีโอ” และ “งานฝังตัว”

| มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
—|—
ภาพ: คะแนนดัชนีรวมของโมเดลโลก 14 รายการใน WorldArena (ซ้าย); ผลการทำงานของ Ctrl-World ในด้านความสอดคล้องในการประเมินกลยุทธ์ฝังตัว (a) และคุณภาพการสร้างวิดีโอ (b) (ขวา)

WorldArena: “สนามทดสอบขั้นสุดท้าย” สำหรับโมเดลโลกแบบฝังตัว

WorldArena ได้รับการยอมรับว่าเป็นเกณฑ์ประเมินที่เป็นมาตรฐานในอุตสาหกรรม เนื่องจากมีตำแหน่งที่ครอบคลุม เข้มข้น และเป็นผู้นำ โดยความน่าเชื่อถือทางวิชาการของเกณฑ์นี้ตั้งอยู่บนคุณลักษณะหลักสามประการ:

1. เกณฑ์ที่เข้มข้น: สร้างโดยสถาบันวิชาการชั้นนำ ประเมินแบบรอบด้าน

WorldArena นำโดยมหาวิทยาลัย Tsinghua ร่วมพัฒนากับสถาบันวิชาการชั้นนำระดับโลก 8 แห่ง เช่น มหาวิทยาลัย Princeton, มหาวิทยาลัยแห่งชาติสิงคโปร์, มหาวิทยาลัย Peking เป็นต้น เพื่อกำหนดมาตรฐานการประเมินที่มีทั้งความเป็นวิทยาศาสตร์และประโยชน์ใช้สอย

ระบบนี้มุ่งเน้นไปที่โมเดลโลกแบบฝังตัว สร้างสถานการณ์ทดสอบแบบบูรณาการที่ครอบคลุม ตัวชี้วัดหลัก 16 รายการ และ งานประยุกต์จริง 3 ประเภท เพื่อประเมินความสามารถของโมเดลในการรับรู้ ความเข้าใจทางกายภาพ การรับรู้เชิงพื้นที่ การคาดการณ์การเคลื่อนไหว และความสามารถในการนำไปใช้จริงอย่างรอบด้าน

2. ผู้เข้าแข่งขันระดับสูง: บริษัทเทคโนโลยีระดับโลกและสถาบันชั้นนำร่วมแข่งขัน

โมเดลที่เข้าร่วมการประเมินในรุ่นแรกครอบคลุมบริษัทเทคโนโลยีระดับโลกและสถาบันวิชาการชั้นนำ รวมถึง Google, NVIDIA, Alibaba, ByteDance, มหาวิทยาลัย Tsinghua, มหาวิทยาลัย Stanford เป็นต้น โมเดล 14 รายการ ที่ใช้แนวทางเทคโนโลยีหลักร่วมแข่งขันกัน ทำให้ผลการจัดอันดับกลายเป็นตัวบ่งชี้ทิศทางที่สำคัญของการพัฒนาทางเทคโนโลยีในอุตสาหกรรม

3. การประเมินที่เข้มข้น: 16 ตัวชี้วัด + 3 งานสำคัญ มุ่งตรงไปที่ความต้องการ “ทำงานจริง”

ระบบการประเมินของ WorldArena ออกแบบโดยเน้น “การใช้งานจริงแบบฝังตัว” มุ่งเน้นไปที่คุณค่าการใช้งานจริงของโมเดล

คุณภาพวิดีโอ: ประเมินอย่างละเอียดจาก 6 มิติหลัก ได้แก่ คุณภาพภาพ, คุณภาพการเคลื่อนไหว, ความสม่ำเสมอของเนื้อหา, ความสอดคล้องทางกายภาพ, ความแม่นยำ 3 มิติ, และความสามารถในการควบคุม

งานฝังตัว: ผ่าน 3 งานหลัก ได้แก่ เครื่องมือสร้างข้อมูล (Data Engine), การประเมินกลยุทธ์ (Policy Evaluation), และการวางแผนการเคลื่อนไหว (Motion Planning) เพื่อประเมินโดยตรงว่าเนื้อหาที่โมเดลสร้างขึ้นสามารถใช้ฝึกหุ่นยนต์ได้หรือไม่ สภาพแวดล้อมจำลองสามารถทดสอบกลยุทธ์ได้หรือไม่ การวางแผนการเคลื่อนไหวสามารถทำงานสำเร็จได้หรือไม่
การตรวจสอบโดยมนุษย์: ผู้ประเมินมืออาชีพ 70 คนทำการประเมินเชิงอัตวิสัยบนวิดีโอ 3,500 คลิป เพื่อให้แน่ใจว่าผลลัพธ์สอดคล้องกับมาตรฐานทางเทคนิค และใกล้เคียงกับสัญชาตญาณการตัดสิน “การใช้งานจริง” ของมนุษย์

มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
ภาพ: การเปรียบเทียบมิติการประเมินระหว่างเกณฑ์มาตรฐานโมเดลโลกที่มีอยู่กับ WorldArena

การประเมินสามชั้นแบบ “ตัวชี้วัดทางเทคนิค + งานใช้งานจริง + การตรวจสอบโดยมนุษย์” นี้ ทำให้การจัดอันดับของ WorldArena สะท้อนคุณค่าการใช้งานจริงของโมเดลได้โดยตรง

Ctrl-World เป็นอันดับหนึ่งในสี่มิติงานฝังตัว ได้รับตำแหน่งความสามารถงานฝังตัวอันดับ 1 ของโลก

มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
ภาพ: คะแนนของโมเดลโลก 14 รายการในสามมิติของคุณภาพวิดีโอ Ctrl-World เป็นอันดับหนึ่งของโลกในด้านความสม่ำเสมอของตัววัตถุ

มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
ภาพ: คะแนนของโมเดลโลก 14 รายการในด้านความสอดคล้องทางกายภาพ ความแม่นยำ 3 มิติ และความสามารถในการควบคุม Ctrl-World นำหน้าในตัวชี้วัดเช่นความแม่นยำของวิถีการเคลื่อนที่

1. ความสม่ำเสมอของตัววัตถุอันดับ 1 ของโลก (0.8411): สร้างรากฐานที่มั่นคงสำหรับการนำงานฝังตัวไปใช้

ตัวชี้วัดนี้วัดความเสถียรของอัตลักษณ์ รูปลักษณ์ และรูปร่างของวัตถุที่สร้างขึ้นตามเวลา ผลการทำงานที่นำหน้าของ Ctrl-World ทำให้วิดีโอการทำงานของหุ่นยนต์ที่สร้างขึ้นสามารถหลีกเลี่ยงปัญหาการเลื่อนของวัตถุ การบิดเบี้ยว หรือความสับสนของอัตลักษณ์ได้ในระดับสูงสุด เป็นการจัดเตรียมวัตถุที่มีความเที่ยงตรงสูงสำหรับการทำงานของหุ่นยนต์

มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
ภาพ: การเปรียบเทียบกรณีศึกษาได้คะแนนสูงและต่ำในด้านความสม่ำเสมอของตัววัตถุตามเกณฑ์ WorldArena

2. ความแม่นยำของวิถีการเคลื่อนที่อันดับ 1 ของโลก (0.4766): ความแม่นยำของการเคลื่อนไหวเทียบเท่ากับวิถีการเคลื่อนที่ทางกายภาพจริง

ความแม่นยำของวิถีการเคลื่อนที่วัดความสอดคล้องระหว่างวิถีการเคลื่อนที่ของแขนกลกับวิถีการเคลื่อนที่ทางกายภาพจริง Ctrl-World ได้อันดับหนึ่ง ซึ่งหมายความว่าวิถีการเคลื่อนที่ของแขนกลที่สร้างขึ้นมีความสอดคล้องสูงกับการเคลื่อนที่ทางกายภาพในโลกจริง เป็นแม่แบบการวางแผนการเคลื่อนไหวที่น่าเชื่อถือสำหรับหุ่นยนต์

มหาวิทยาลัยชิงหวาและสแตนฟอร์ดร่วมกันพัฒนา Ctrl-World World Model ประสิทธิภาพการประเมินอัจฉริยะเชิงรูปธรรมติดอันดับต้นของโลก ความสามารถในการสร้างวิดีโอเหนือกว่า Google และ NVIDIA
ภาพ: การเปรียบเทียบกรณีศึกษาได้คะแนนสูงและต่ำในด้านความแม่นยำของวิถีการเคลื่อนที่ตามเกณฑ์ WorldArena

3. ความแม่นยำของความลึกอยู่ในกลุ่มชั้นนำของโลก (0.9300): นำหน้าในการรับรู้พื้นที่ 3 มิติ

ในตัวชี้วัดความแม่นยำของความลึกภายใต้มิติความแม่นยำ 3 มิติ Ctrl-World ได้คะแนน 0.9300 (ห่างจากอันดับหนึ่งเพียง 0.0012) อยู่ในกลุ่มชั้นนำของโลก แสดงให้เห็นถึงความเข้าใจที่แม่นยำในโครงสร้างพื้นที่สามมิติ ความสามารถนี้เกี่ยวข้องโดยตรงกับอัตราความสำเร็จของหุ่นยนต์ในการทำงานที่ต้องใช้ความแม่นยำ เช่น การจับ การวางซ้อน

ภาพนี้แสดงการเปรียบเทียบกรณีศึกษาได้คะแนนสูงและต่ำในด้านความแม่นยำของความลึก (Depth Accuracy) ตามเกณฑ์ WorldArena นำเสนอข้อได้เปรียบทางเทคนิคของ Ctrl-World ที่ได้คะแนน 0.9300 และอยู่ในกลุ่มชั้นนำของโลกอย่างชัดเจน:

กรณีศึกษาได้คะแนนสูง (ความแม่นยำของความลึก 91.58): ในงาน「stack blocks three」และ「stack bowls two」แผนที่ความลึกที่โมเดลสร้างขึ้นมีความสอดคล้องสูงกับฉากจริง (GT) ตำแหน่งเชิงพื้นที่ของวัตถุมีความเสถียร ความสัมพันธ์เชิงทัศนียภาพสมเหตุสมผล แขนกลและวัตถุรักษาการแยกเชิงพื้นที่และการสัมผัสทางกายภาพที่ถูกต้อง สะท้อนถึงความสามารถในการรับรู้โครงสร้างพื้นที่สามมิติที่แม่นยำ
กรณีศึกษาได้คะแนนต่ำ (ความแม่นยำของความลึก 59.07): ในฉากเดียวกัน เกิดปัญหาการหลอมรวมที่ผิดปกติระหว่างแขนกลกับวัตถุ (ทะลุผ่าน) การบิดเบี้ยวทางเรขาคณิตอย่างรุนแรง ภาพซ้อนพร่ามัว และการขาดหายของเงา ส่งผลให้ความสมบูรณ์ของพื้นที่พังทลาย

4. ความสอดคล้องในการประเมินกลยุทธ์อันดับ 1 ของโลก (Pearson r=0.986): การทดสอบเสมือนเทียบเท่ากับการทดสอบจริง

ในงานการประเมินกลยุทธ์ซึ่งมีคุณค่าทางการใช้งานสูงที่สุด ผลการประเมินของ Ctrl-World มีความสัมพันธ์สูงถึง 0.986 กับผลจากเครื่องจำลองทางกายภาพจริง ซึ่งเกือบจะสมบูรณ์แบบในการจำลองพลวัตของสภาพแวดล้อมจริง นี่หมายความว่านักพัฒนาสามารถใช้ Ctrl-World เพื่อทดสอบกลยุทธ์หุ่นยนต์ได้โดยตรง โดยไม่ต้องสร้างสภาพแวดล้อมทางกายภาพจริงที่มีค่าใช้จ่ายสูง จึงช่วยลดต้นทุนการวิจัยและพัฒนาอย่างมาก

คำอธิบายแผนภูมิ: การเปรียบเทียบความสัมพันธ์ของผลการประเมินกลยุทธ์ระหว่างโมเดลโลกกับเครื่องจำลองทางกายภาพ ค่าสัมประสิทธิ์สหสัมพันธ์ Pearson ของ Ctrl-World คือ r=0.986 สูงกว่าโมเดลอื่นอย่างมาก ยืนยันความน่าเชื่อถือในฐานะสภาพแวดล้อมจำลองเสมือนที่มีความเที่ยงตรงสูง

จากความเป็นผู้นำในตัวชี้วัดสู่ความสำเร็จของงาน: ถอดรหัส “การแปลงความสามารถ” ของ Ctrl-World

ความเป็นผู้นำอย่างรอบด้านของ Ctrl-World ในมิติต่างๆ เช่น ความสอดคล้องทางกายภาพ ความแม่นยำ 3 มิติ และความสามารถในการควบคุม เป็นตัวกำหนดคุณค่าการใช้งานจริงในฐานะ “สมองของหุ่นยนต์” โดยตรง ข้อมูลการประเมินจาก WorldArena เผยให้เห็นความสัมพันธ์ของการแปลงจากตัวชี้วัดไปสู่การใช้งานจริงนี้อย่างชัดเจน:

การประเมินกลยุทธ์ที่มีความเที่ยงตรงสูง: การทดสอบเสมือนคือการทดสอบจริง
ในงานการประเมินกลยุทธ์ ผลการประเมินของ Ctrl-World มีความสัมพันธ์สูงถึง 0.986 กับเครื่องจำลองทางกายภาพ ซึ่งหมายความว่าประสิทธิภาพของกลยุทธ์หุ่นยนต์ที่ทดสอบในสภาพแวดล้อมเสมือนของมัน แตกต่างจากผลการทดสอบในสภาพแวดล้อมทางกายภาพจริงน้อยมาก ความสำเร็จนี้มีรากฐานทางเทคนิคที่สำคัญคือ: Ctrl-World ใช้สถาปัตยกรรมแบบมีเงื่อนไขจากการกระทำที่ชัดเจน (Explicit Action Conditioning Architecture) โดยนำพารามิเตอร์ทางกายภาพระดับล่าง เช่น มุมข้อต่อของแขนกล ตำแหน่งของตัวจับปลายแขน ฯลฯ มาใช้เป็นเงื่อนไขการสร้างโดยตรง บังคับให้โมเดลเรียนรู้ห่วงโซ่เหตุผลทางกายภาพของ “การดำเนินการ A → สร้างสถานะ B” แทนที่จะคาดการณ์จากคำอธิบายข้อความเพียงอย่างเดียว
อัตราความสำเร็จในการวางแผนการเคลื่อนไหว: ความแม่นยำทางกายภาพกำหนดความสำเร็จหรือล้มเหลวของงานโดยตรง
ในงานการวางแผนการเคลื่อนไหว แม้ว่าอัตราความสำเร็จสัมบูรณ์ของโมเดลโลกทั้งหมดในปัจจุบันยังมีพื้นที่สำหรับการพัฒนา แต่ข้อได้เปรียบด้านความแม่นยำทางกายภาพของ Ctrl-World ได้สร้างพื้นฐานที่เชื่อถือได้มากที่สุด ความแม่นยำของวิถีการเคลื่อนที่และความแม่นยำของความลึกที่นำหน้าทำให้มั่นใจได้ว่าลำดับการเคลื่อนไหวที่สร้างขึ้น เมื่อนำไปดำเนินการบนหุ่นยนต์จริง จะสามารถไปถึงตำแหน่งเป้าหมายได้อย่างแม่นยำและรักษาการโต้ตอบที่เสถียรทางกายภาพได้อย่างมีประสิทธิภาพ หลีกเลี่ยงข้อผิดพลาดในการทำงาน เช่น การจับไม่โดน การชน ฯลฯ ที่เกิดจากความคลาดเคลื่อนในการรับรู้เชิงพื้นที่
ประสิทธิผลของข้อมูลสังเคราะห์: จาก “สามารถสร้างได้” สู่ “สามารถฝึกได้”
ในงานเครื่องมือสร้างข้อมูล ความสมเหตุสมผลทางกายภาพของข้อมูลที่ Ctrl-World สร้างขึ้นทำให้มั่นใจได้ว่าสามารถนำไปใช้ฝึกกลยุทธ์หุ่นยนต์จริงได้ ต่างจากข้อมูลสังเคราะห์จำนวนมากที่ภาพชัดเจนแต่ขาดความสม่ำเสมอทางกายภาพ Ctrl-World ผ่านวิธีการฝึกฝนที่ฝังข้อจำกัดของเครื่องยนต์ทางกายภาพ (Physics Engine) ทำให้มั่นใจว่าลำดับวิดีโอ-การกระทำที่สร้างขึ้นไม่เพียงแต่ “ดูเหมือนถูกต้อง” แต่ยัง “ถูกต้องทางกายภาพ” ด้วย ดังนั้นข้อมูลสังเคราะห์ของมันจึงมีคุณค่าสำหรับการฝึกฝนอย่างแท้จริง

ข้อได้เปรียบทางเทคนิคหลักของ Ctrl-World

สถาปัตยกรรมแบบมีเงื่อนไขจากการกระทำ
ต่างจากโมเดลที่พึ่งพาคำสั่งข้อความเป็นหลัก Ctrl-World ใช้การสร้างแบบจำลองการกระทำที่ชัดเจน (Explicit Action Modeling) โดย

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง