เมื่อวิดีโอที่สร้างโดยโมเดลโลกสามารถ “หลอกตา” ได้ ทำไมหุ่นยนต์ถึงยังคง “มีตาแต่ไม่มีสมอง”?
13 กุมภาพันธ์ 2026 ข่าวสำคัญจากแนวหน้าของปัญญาประดิษฐ์เชิงกายภาพ (Embodied AI) ก่อให้เกิดความสั่นสะเทือนในแวดวงวิชาการและอุตสาหกรรม: WorldArena ซึ่งเป็นระบบประเมินแบบครบวงจร “ฟังก์ชัน + การมองเห็น” แรกของโลกสำหรับโมเดลโลกเชิงกายภาพ (Embodied World Models) ที่พัฒนาโดยสถาบันชั้นนำอย่าง มหาวิทยาลัยชิงหวา, มหาวิทยาลัยปักกิ่ง, มหาวิทยาลัยฮ่องกง, มหาวิทยาลัยพรินซ์ตัน, สถาบันวิทยาศาสตร์จีน, มหาวิทยาลัยเจียวทงเซี่ยงไฮ้, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน, มหาวิทยาลัยแห่งชาติสิงคโปร์ และอื่นๆ ได้เปิดตัวและปล่อยเป็นโอเพนซอร์สสู่สาธารณะทั่วโลกอย่างเป็นทางการ
นี่ไม่ใช่แค่การจัดอันดับ “ใครวาดภาพได้สมจริงกว่า” อีกชุดหนึ่ง แต่เป็นกระจกที่สะท้อนแก่นแท้ของโมเดลโลก

จุดระเบิดโดยตรง: คะแนนการมองเห็นเต็ม แต่คะแนนงานเป็นศูนย์?
WorldArena ฉีกหน้ากาก “วิดีโอสวยงาม” เป็นครั้งแรก
“วิดีโอที่สร้างโดยโมเดลหลายตัว ดูด้วยตามนุษย์แทบจะสมบูรณ์แบบ แต่เมื่อให้มันควบคุมหุ่นยนต์หยิบแก้วจริงๆ — ข้อบกพร่องก็ปรากฏขึ้นทันที”
ทีมวิจัย WorldArena กล่าวตรงไปตรงมาว่า: การประเมินโมเดลโลกในปัจจุบันถูกครอบงำด้วย “การแข่งขันด้านการมองเห็น” มานานเกินไป โมเดลไหนสร้างวิดีโอได้ชัดเจนกว่า ราบรื่นกว่า คล้ายเอฟเฟกต์ฮอลลีวูดมากกว่า ก็ได้คะแนนสูงกว่า แต่โลกแห่งความเป็นจริงไม่ใช่ภาพยนตร์ — สิ่งที่หุ่นยนต์ต้องการคือความเข้าใจกฎฟิสิกส์ ความแม่นยำของวิถีการเคลื่อนไหว ความเสถียรของการตัดสินใจหลายขั้นตอน ไม่ใช่ “สไลด์โชว์” ที่สวยงามทีละเฟรม
WorldArena พิสูจน์ด้วยข้อมูลเป็นครั้งแรก: ความสัมพันธ์ระหว่างคุณภาพการมองเห็นกับความสามารถในการปฏิบัติงาน มีเพียง 0.36!
นี่หมายความว่า: โมเดลหนึ่งสามารถสร้างวิดีโอระดับรางวัลออสการ์ได้ แต่กลับ “ไร้ความสามารถ” เกือบสมบูรณ์ในงานจริง
นวัตกรรมหลัก: จาก “ดูสมจริง” สู่ “ใช้งานได้อย่างน่าเชื่อถือ”
WorldArena ไม่ใช่การปรับปรุงแก้ไขระบบประเมินที่มีอยู่ แต่เป็นการปรับโครงสร้างกระบวนทัศน์การประเมินครั้งสำคัญ
นวัตกรรมที่หนึ่ง: การประเมินการมองเห็นหกมิติ ไม่ใช่แค่ “ดูสวยหรือไม่”
การมองเห็นไม่ใช่แค่ “ความสวยงามเชิงเดียว” อีกต่อไป แต่ถูกแยกย่อยออกเป็นหกมิติ: คุณภาพการมองเห็น, คุณภาพการเคลื่อนไหว, ความสม่ำเสมอของเนื้อหา, การปฏิบัติตามกฎฟิสิกส์, ความถูกต้อง 3 มิติ, และความสามารถในการควบคุม โดยเฉพาะการปฏิบัติตามกฎฟิสิกส์และความเข้าใจพื้นที่ 3 มิติ ถูกยกระดับให้มีความสำคัญเทียบเท่ากับคุณภาพภาพ — เพราะหุ่นยนต์ไม่เชื่อ “มายากล” แต่เชื่อฟิสิกส์
นวัตกรรมที่สอง: งานเชิงกายภาพสามประเภท ทดสอบโดยตรงว่า “ใช้งานได้หรือไม่”
WorldArena เป็นครั้งแรกของโลกที่นำโมเดลโลกมาทดสอบความเครียดในสายงานงานเชิงกายภาพจริง:
- ในฐานะเครื่องมือสร้างข้อมูล: วิถีที่มันสังเคราะห์ขึ้น สามารถนำไปฝึกโมเดลกลยุทธ์ให้ดีขึ้นได้หรือไม่?
- ในฐานะเครื่องมือประเมินกลยุทธ์: การสร้างแบบจำลองพลวัตสภาพแวดล้อมของมัน สัมพันธ์อย่างสูงกับเครื่องมือจำลองฟิสิกส์จริงหรือไม่?
- ในฐานะเครื่องมือวางแผนการกระทำ: มันสามารถทำงานแบบวงจรปิดที่ต้องมีปฏิสัมพันธ์หลายขั้นตอนและต่อเนื่องยาวนานได้หรือไม่?
ผลลัพธ์น่าตกใจ: โมเดลส่วนใหญ่ที่ได้คะแนนการมองเห็นสูง “พ่ายแพ้ยับเยิน” ในการประเมินงาน ในขณะที่โมเดลส่วนน้อยที่เน้นการสร้างแบบจำลองตามเงื่อนไขการเคลื่อนไหว (เช่น CtrlWorld) แม้การมองเห็นจะไม่ใช่ระดับท็อป แต่กลับมีความสัมพันธ์ในการประเมินกลยุทธ์สูงถึง 0.986 เกือบเทียบเท่าสภาพแวดล้อมจริง
EWMScore: หนึ่งคะแนน ที่เชื่อมโยงการรับรู้ของมนุษย์กับความสามารถของโมเดล
WorldArena ยังได้เปิดตัวระบบคะแนนรวม EWMScore ซึ่งแมปตัวชี้วัดการประเมินวัตถุวิสัยหลายมิติให้เป็นคะแนนเดียวที่สามารถเปรียบเทียบข้ามกันได้ สิ่งสำคัญยิ่งไปกว่านั้นคือ: EWMScore มีความสัมพันธ์เชิงบวกสูงกับการประเมินอัตนัยของมนุษย์ — มันไม่ใช่ “ตัวชี้วัดวิชาการกล่องดำ” อีกต่อไป แต่เป็นมาตรวัดที่สะท้อนการรับรู้จริงของมนุษย์
ความหมายเชิงวิชาการ: “ช่วงเวลา iPhone” ของโมเดลโลกยังมาไม่ถึง
“เรายังมีเส้นทางสำคัญอีกช่วงหนึ่งก่อนจะถึงโมเดลโลกเชิงกายภาพที่ใช้งานได้จริง”
นี่ไม่ใช่การมองโลกในแง่ร้าย แต่เป็นการหันหลังให้กับความเข้าใจเดิมอย่างชัดเจน WorldArena ใช้การทดลองที่เป็นระบบเพื่อส่งสัญญาณไปยังนักวิจัยทั่วโลก: ความสามารถในการสร้างภาพการมองเห็นใกล้ถึงขีดจำกัดแล้ว แต่ปัญญาด้านการทำงานเพิ่งเริ่มต้น เมื่อโมเดลสามารถสร้างภาพ “โค้กที่ดูเย็นเฉียบ” ได้ แต่ไม่รู้ว่าน้ำแข็งจะลอย กำแพงแก้วจะเกิดหยดน้ำ มันก็ยังคงเป็น “โมเดลการมองเห็น” ไม่ใช่ “โมเดลโลก”
เปิดกว้างเพื่อสร้างร่วมกัน มอบสิทธิ์การประเมินให้ชุมชนทั่วโลก
WorldArena เป็นแพลตฟอร์มชุมชนที่เปิดกว้างเต็มที่ ทำซ้ำได้ และพัฒนาต่อยอดอย่างต่อเนื่อง
- หน้าโครงการหลัก: http://world-arena.ai
- เอกสารวิชาการเผยแพร่แล้ว: http://arxiv.org/abs/2602.08971
- กระดานคะแนนประเมินอัปเดตแบบเรียลไทม์: https://huggingface.co/spaces/WorldArena/WorldArena
- เปิดซอร์สโค้ดและข้อมูลทั้งหมด: https://github.com/tsinghua-fib-lab/WorldArena
“เราไม่ได้สร้างกระดานจัดอันดับ แต่กำลังสร้าง ‘ระบบสอบใบขับขี่’ สำหรับปัญญาประดิษฐ์เชิงกายภาพ”
— ทีม WorldArena
รายละเอียดการประเมิน
การประเมินคุณภาพวิดีโอหลายมิติ
เพื่อสร้างมาตรฐานการประเมินการมองเห็นที่เป็นระบบ WorldArena ได้สร้างหกมิติหลัก ตั้งแต่การรับรู้ความสมจริงไปจนถึงความสมจริงทางฟิสิกส์ เพื่ออธิบายความสามารถในการสร้างของโมเดลอย่างครอบคลุม

รูปที่ 1 WorldArena ประเมินคุณภาพการสร้างของโมเดลโลกอย่างครอบคลุมในหกมิติสำคัญ
1. คุณภาพการมองเห็น
ประเมินว่าวิดีโอ “ดูสมจริง” หรือไม่เป็นอันดับแรก ผ่านตัวชี้วัดเช่น คุณภาพภาพ, คุณภาพทางสุนทรียศาสตร์ และความคล้ายคลึง JEPA เพื่อวัดประสิทธิภาพของวิดีโอที่สร้างขึ้นในด้านความชัดเจน, ความสอดคล้องของสี และความคล้ายคลึงของการกระจายตัว มิตินี้เน้นอธิบายระดับความสมจริงและพลังการแสดงออกทางภาพของโมเดลในระดับการรับรู้

2. คุณภาพการเคลื่อนไหว
แค่มีภาพชัดเจนไม่เพียงพอ การเคลื่อนไหวสมเหตุสมผลหรือไม่ก็สำคัญเช่นกัน เราวิเคราะห์ความเข้มข้น, ความต่อเนื่อง และความสม่ำเสมอตามเวลาของการเคลื่อนไหวในวิดีโอผ่านระดับการเคลื่อนไหว, ความต่อเนื่องของโฟลว์แสง และความราบรื่นของการเคลื่อนไหว มิตินี้ใช้เพื่ออธิบายระดับความเสถียรและลักษณะการเคลื่อนไหวของเนื้อหาที่สร้างขึ้นในระดับเวลา

3. ความสม่ำเสมอของเนื้อหา
โลกแห่งความเป็นจริงจะไม่ “เปลี่ยนรูปทันที” เราวัดความเสถียรของวัตถุและฉากในมิติเวลาและพื้นที่ผ่านตัวชี้วัดความสม่ำเสมอของวัตถุหลักและความสม่ำเสมอของพื้นหลัง วิเคราะห์ว่ามีปรากฏการณ์เช่น การเลื่อนของโครงสร้าง, การเปลี่ยนแปลงอัตลักษณ์ หรือพื้นหลังที่ไม่ต่อเนื่องหรือไม่

4. การปฏิบัติตามกฎฟิสิกส์
ความสามารถในการปฏิบัติตามกฎฟิสิกส์เป็นสะพานสำคัญที่เชื่อมโยง “การมองเห็น” กับ “การทำงาน” ผ่านคุณภาพการโต้ตอบของแขนกลและวัตถุในวิดีโอ และความแม่นยำของวิถีการเคลื่อนไหว เพื่อประเมินระดับความสมเหตุสมผลของการโต้ตอบระหว่างหุ่นยนต์กับวัตถุ และความสัมพันธ์ระหว่างวิถีการเคลื่อนไหวกับกฎฟิสิกส์

5. ความถูกต้อง 3 มิติ
ความสามารถในการเข้าใจพื้นที่ เป็นพื้นฐานสำคัญของโมเดลโลกในการก้าวสู่ปัญญาประดิษฐ์เชิงกายภาพ เราอธิบายว่าการจัดโครงสร้างพื้นที่ของวิดีโอที่สร้างขึ้นสอดคล้องกับกฎเรขาคณิตและทัศนียภาพหรือไม่ ผ่านตัวชี้วัดความถูกต้องของความลึกและความสม่ำเสมอของทัศนียภาพ วิเคราะห์ความสามารถของโมเดลในการเข้าใจความสัมพันธ์โครงสร้างสามมิติ

6. ความสามารถในการควบคุม
สุดท้าย และเป็นขั้นตอนที่สำคัญที่สุด: โมเดล “เข้าใจคำสั่ง” หรือไม่ ประเมินระดับการตอบสนองของโมเดลต่ออินพุตภายนอก และความสามารถในการแยกแยะผลลัพธ์ที่สร้างขึ้นภายใต้เงื่อนไขคำสั่งที่แตกต่างกัน ผ่านความสามารถในการปฏิบัติตามคำสั่ง, ความสม่ำเสมอทางความหมาย และความสามารถในการปฏิบัติตามการกระทำ

การประเมินการทำงานของงานเชิงกายภาพ
นวัตกรรมหลักอีกประการของ WorldArena คือการประเมิน “ความสามารถในการทำงาน” ของโมเดลโลกในงานเชิงกายภาพจริงอย่างเป็นระบบเป็นครั้งแรก เราไม่ได้ถามแค่ว่าโมเดลสร้างวิดีโอได้สมจริงแค่ไหน? แต่ถามต่อไปว่า: มันสามารถมีส่วนร่วมในการปฏิบัติงานได้จริงหรือไม่?
เพื่อจุดประสงค์นี้ WorldArena ประเมินความสามารถของโมเดลโลกอย่างครอบคลุมจากบทบาทสำคัญสามประการ:
1. ในฐานะเครื่องมือสร้างข้อมูล สามารถเสริมข้อมูลการฝึกกลยุทธ์ขั้นปลายได้อย่างมีประสิทธิภาพหรือไม่?
2. ในฐานะเครื่องมือประเมินกลยุทธ์ สามารถอธิบายการเปลี่ยนสถานะของสภาพแวดล้อมจริงได้อย่างแม่นยำหรือไม่?
3. ในฐานะเครื่องมือวางแผนการกระทำ มีความสามารถในการสนับสนุนการทำงานแบบวงจรปิดและการตัดสินใจระยะยาวหรือไม่?
การประเมินแบบดั้งเดิมมักหยุดอยู่ที่ระดับการมองเห็น ในขณะที่ WorldArena ขยายการประเมินไปยังงานเชิงกายภาพขั้นปลายเอง เราให้ความสนใจว่าโมเดลสามารถตัดสินใจได้อย่างมีประสิทธิภาพในสภาพแวดล้อมแบบไดนามิกหรือไม่, สามารถจัดการกับการโต้ตอบหลายขั้นตอนที่ซับซ้อนได้หรือไม่, และมีความสามารถในการวางแผนและดำเนินการที่เสถียรหรือไม่ ผ่านกรอบการประเมินที่มุ่งเน้นการทำงานนี้ เราสามารถเข้าใจขอบเขตความสามารถจริงของโมเดลโลกได้อย่างครอบคลุมมากขึ้น และตัดสินว่าพวกมันมีศักยภาพที่จะก้าวไปสู่การใช้งานเชิงกายภาพจริงหรือไม่

รูปที่ 2 ระบบประเมินงานขั้นปลายเชิงกายภาพ (เครื่องมือสังเคราะห์ข้อมูล, เครื่องมือประเมินกลยุทธ์, เครื่องมือวางแผนการกระทำ)
EWMScore: ระบบคะแนนรวมที่เป็นหนึ่งเดียว
เพื่อให้ผลการประเมินเข้าใจง่ายและเปรียบเทียบข้ามกันได้มากขึ้น WorldArena ได้แนะนำตัวชี้วัดรวมที่เป็นหนึ่งเดียว EWMScore ตัวชี้วัดนี้รวบรวมผลการประเมินหลายมิติ เช่น คุณภาพวิดีโอ, ความสม่ำเสมอทางฟิสิกส์ และความสามารถในการปฏิบัติตามคำสั่ง แล้วแมปให้เป็นคะแนนรวม เพื่อให้การอธิบายประสิทธิภาพที่ชัดเจนและเปรียบเทียบได้สำหรับแต่ละโมเดล การทดลองแสดงให้เห็นว่า EWMScore มีความสัมพันธ์เชิงบวกสูงกับผลการประเมินโดยมนุษย์ สามารถสะท้อนความสามารถรวมของโมเดลได้อย่างแท้จริง นี่เป็นสัญญาณว่าการประเมินความสามารถของโมเดลโลก กำลังเปลี่ยนจาก “การเปรียบเทียบตัวชี้วัดหลายตัวที่กระจัดกระจาย” สู่ระบบการวัดผลรวมที่ “เป็นหนึ่งเดียว, อธิบายได้, และเชื่อมโยงกัน”

รูปที่ 3: EWMScore และการเปรียบเทียบตัวชี้วัดในมิติต่างๆ ของโมเดลโลก 14 ตัว
ช่องว่างระหว่างคุณภาพวิดีโอและการทำงาน: ความแตกต่างของความสามารถจากการมองเห็นสู่การปฏิบัติ
การประเมินที่เป็นระบบของ WorldArena เผยให้เห็นความเป็นจริงที่สำคัญ: โมเดลโลกในปัจจุบันมีความก้าวหน้าอย่างเห็นได้ชัดในระดับการสร้างภาพการมองเห็น แต่ยังมีข้อบกพร่องพื้นฐานในการสนับสนุนงานปัญญาประดิษฐ์เชิงกายภาพและการตัดสินใจระยะยาว
กล่าวโดยเฉพาะ แม้โมเดลหลายตัวสามารถสร้างเอฟเฟกต์ภาพที่สมจริงสูง แต่ความสม่ำเสมอและความเสถียรในสภาพแวดล้อมทางฟิสิกส์ที่ซับซ้อนกลับไม่เพียงพออย่างเห็นได้ชัด โดยเฉพาะในงานที่ต้องมีปฏิสัมพันธ์หลายขั้นตอนและต่อเนื่องยาวนาน โมเดลมักจะปฏิบัติตามกฎฟิสิกส์อย่างต่อเนื่องได้ยาก มีแนวโน้มที่จะเกิดการเลื่อนของไดนามิกส์, การเบี่ยงเบนเป้าหมาย หรือกลยุทธ์ที่ไม่เสถียร นี่แสดงให้เห็นว่า การพึ่งพาความสามารถในการสร้างภาพการมองเห็นเพียงอย่างเดียว ยังไม่เพียงพอที่จะก้าวข้ามคอขวดหลักของปัญญาประดิษฐ์เชิงกายภาพ
ผ่านการประเมินเชิงระบบของงานขั้นปลายเชิงกายภาพสำคัญสามประเภท ได้แก่ เครื่องมือข้อมูล, การประเมินกลยุทธ์, และการวางแผนการกระทำ WorldArena ยืนยันข้อสรุปข้างต้นเพิ่มเติม: โมเดลโลกในปัจจุบันแม้จะสร้างวิดีโอที่ “ดูดี” ได้ แต่ยังไม่มีความสามารถในการสนับสนุนการใช้งานเชิงกายภาพจริง
ยกตัวอย่างงานเครื่องมือข้อมูล เราใช้โมเดลโลกสร้างวิถีการเคลื่อนไหวสังเคราะห์ เพื่อใช้เสริมข้อมูลการฝึกสำหรับโมเดลกลยุ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22942
