WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก “การแข่งขันภายในด้านการมองเห็น” สู่การปรับโครงสร้างกระบวนทัศน์ของ “ความฉลาดเชิงฟังก์ชัน”

เมื่อวิดีโอที่สร้างโดยโมเดลโลกสามารถ “หลอกตา” ได้ ทำไมหุ่นยนต์ถึงยังคง “มีตาแต่ไร้สมอง”?

13 กุมภาพันธ์ 2026 WorldArena ระบบประเมินแบบครบวงจร “ฟังก์ชัน+การมองเห็น” แรกของโลกสำหรับโมเดลโลกแบบมีตัวตน (Embodied World Models) ที่พัฒนาโดยสถาบันชั้นนำระดับโลก เช่น มหาวิทยาลัยชิงหวา มหาวิทยาลัยปักกิ่ง มหาวิทยาลัยฮ่องกง มหาวิทยาลัยพรินซ์ตัน สถาบันวิทยาศาสตร์จีน มหาวิทยาลัยเจียวทงเซี่ยงไฮ้ มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน มหาวิทยาลัยแห่งชาติสิงคโปร์ ได้เปิดตัวและปล่อยเป็นโอเพนซอร์สสู่สาธารณะทั่วโลกอย่างเป็นทางการ

นี่ไม่ใช่แค่การจัดอันดับ “ใครวาดได้สมจริงกว่า” อีกชุดหนึ่ง แต่เป็นกระจกที่สะท้อนแก่นแท้ของโมเดลโลก

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

การมองเห็นได้คะแนนเต็ม งานได้ศูนย์? WorldArena เผยให้เห็นการ “ปลอมแปลง” ของ “วิดีโอสวยงาม” เป็นครั้งแรก

“วิดีโอที่สร้างโดยโมเดลหลายตัว ดูด้วยตามนุษย์เกือบจะสมบูรณ์แบบ แต่เมื่อให้มันควบคุมหุ่นยนต์หยิบแก้วจริงๆ — ข้อบกพร่องก็ปรากฏขึ้นทันที”

ทีมวิจัย WorldArena ชี้ให้เห็นว่า การประเมินโมเดลโลกในปัจจุบันถูกครอบงำด้วย “การแข่งขันด้านการมองเห็น” มานานแล้ว โมเดลใดสร้างวิดีโอที่ชัดเจนกว่า ลื่นไหลกว่า คล้ายเอฟเฟกต์ฮอลลีวูดมากกว่า ก็จะได้คะแนนสูง อย่างไรก็ตาม โลกแห่งความเป็นจริงไม่ใช่ภาพยนตร์ — สิ่งที่หุ่นยนต์ต้องการคือความเข้าใจในกฎฟิสิกส์ ความแม่นยำของวิถีการเคลื่อนไหว ความเสถียรของการตัดสินใจหลายขั้นตอน ไม่ใช่ “สไลด์โชว์” ที่สวยงามทีละเฟรม

WorldArena พิสูจน์ด้วยข้อมูลเป็นครั้งแรก: ความสัมพันธ์ระหว่างคุณภาพการมองเห็นกับความสามารถในการปฏิบัติงานมีเพียง 0.36 ซึ่งหมายความว่าโมเดลสามารถสร้างวิดีโอระดับรางวัลออสการ์ได้ แต่กลับ “ไร้ความสามารถ” เกือบสมบูรณ์ในงานจริง

  • นวัตกรรมหลัก: จาก “ดูสมจริง” สู่ “ใช้งานได้อย่างน่าเชื่อถือ”

WorldArena ไม่ใช่การปรับปรุงแก้ไขระบบประเมินที่มีอยู่ แต่เป็นการปรับโครงสร้างพื้นฐานของกระบวนทัศน์การประเมินใหม่ทั้งหมด

✅ นวัตกรรมที่หนึ่ง: การประเมินการมองเห็นหกมิติ ไม่ใช่แค่ “สวยหรือไม่สวย”

การประเมินการมองเห็นไม่จำกัดอยู่แค่ “ความสวยงามเชิงเดียว” อีกต่อไป แต่ถูกแยกย่อยออกเป็นหกมิติ: คุณภาพการมองเห็น คุณภาพการเคลื่อนไหว ความสม่ำเสมอของเนื้อหา การปฏิบัติตามกฎฟิสิกส์ ความแม่นยำ 3 มิติ และความสามารถในการควบคุม โดยที่การปฏิบัติตามกฎฟิสิกส์และความเข้าใจในพื้นที่ 3 มิติได้รับการยกระดับให้มีความสำคัญเทียบเท่ากับคุณภาพภาพ — เพราะหุ่นยนต์ไม่เชื่อ “มายากล” แต่เชื่อฟิสิกส์

✅ นวัตกรรมที่สอง: งานแบบมีตัวตนสามประเภท ถามตรงๆ ว่า “ใช้งานได้หรือไม่”

WorldArena เป็นครั้งแรกของโลกที่นำโมเดลโลกมาทดสอบความเครียดในไลน์งานแบบมีตัวตนจริง:

  1. ในฐานะเครื่องมือสร้างข้อมูล: วิถีที่มันสังเคราะห์ สามารถฝึกโมเดลกลยุทธ์ให้ดีขึ้นได้หรือไม่?
  2. ในฐานะตัวประเมินกลยุทธ์: การสร้างแบบจำลองพลวัตของสภาพแวดล้อมของมัน สัมพันธ์อย่างสูงกับเครื่องยนต์ฟิสิกส์จริงหรือไม่?
  3. ในฐานะตัววางแผนการกระทำ: มันสามารถทำงานแบบปิดวงจรที่ต้องโต้ตอบหลายขั้นตอนและยาวนานได้หรือไม่?

ผลการประเมินน่าตกใจ: โมเดลส่วนใหญ่ที่ได้คะแนนการมองเห็นสูง “พ่ายแพ้ยับเยิน” ในการประเมินงาน ในขณะที่โมเดลส่วนน้อยที่เน้นการสร้างแบบจำลองตามเงื่อนไขการเคลื่อนไหว (เช่น CtrlWorld) แม้การมองเห็นจะไม่ใช่ระดับท็อป แต่กลับมีความสัมพันธ์ในการประเมินกลยุทธ์สูงถึง 0.986 เกือบเทียบเท่าสภาพแวดล้อมจริง

📊 EWMScore: คะแนนเดียว จัดแนวการรับรู้ของมนุษย์กับความสามารถของโมเดล

WorldArena ได้เปิดตัวระบบการให้คะแนนรวม EWMScore ซึ่งแมปตัวชี้วัดการประเมินวัตถุวิสัยหลายมิติให้เป็นคะแนนเดียวที่สามารถเปรียบเทียบในแนวนอนได้ ประเด็นสำคัญคือ EWMScore มีความสัมพันธ์เชิงบวกสูงกับการประเมินอัตนัยของมนุษย์ — มันไม่ใช่ “ตัวชี้วัดวิชาการกล่องดำ” อีกต่อไป แต่เป็นเครื่องวัดที่สะท้อนการรับรู้จริงของมนุษย์

🧠 ความหมายเชิงวิชาการ: “ช่วงเวลา iPhone” ของโมเดลโลกยังมาไม่ถึง

“เรายังมีระยะทางสำคัญที่ต้องเดินไปสู่โมเดลโลกแบบมีตัวตนที่ใช้งานได้จริง”

WorldArena ส่งสัญญาณไปยังนักวิจัยทั่วโลกผ่านการทดลองที่เป็นระบบ: ความสามารถในการสร้างภาพการมองเห็นใกล้ถึงขีดจำกัดแล้ว แต่ความฉลาดเชิงฟังก์ชันเพิ่งเริ่มต้น เมื่อโมเดลสามารถสร้าง “โค้กที่ดูเย็นเฉียบ” ได้ แต่ไม่รู้ว่าน้ำแข็งจะลอย กำแพงแก้วจะเกิดหยดน้ำ มันก็ยังคงเป็น “โมเดลการมองเห็น” ไม่ใช่ “โมเดลโลก”

🌍 เปิดกว้างสร้างร่วมกัน มอบอำนาจการประเมินให้ชุมชนทั่วโลก

WorldArena เป็นแพลตฟอร์มชุมชนที่เปิดกว้างเต็มที่ ทำซ้ำได้ และพัฒนาต่อเนื่องอย่างไม่หยุดนิ่ง

  • 🧩 โฮมเพจโครงการ: http://world-arena.ai
  • 📄 เอกสารวิชาการเผยแพร่แล้ว: http://arxiv.org/abs/2602.08971
  • 🧪 บอร์ดประเมินอัปเดตแบบเรียลไทม์: https://huggingface.co/spaces/WorldArena/WorldArena
  • 💻 โค้ดและข้อมูลโอเพนซอร์สทั้งหมด: https://github.com/tsinghua-fib-lab/WorldArena

“เราไม่ได้สร้างแค่กระดานอันดับ แต่กำลังสร้าง ‘ระบบสอบใบขับขี่’ สำหรับปัญญาแบบมีตัวตน” — ทีม WorldArena


รายละเอียดการประเมิน

การประเมินคุณภาพวิดีโอหลายมิติ

เพื่อสร้างมาตรฐานการประเมินการมองเห็นที่เป็นระบบ WorldArena ได้สร้างหกมิติหลัก ตั้งแต่ความสมจริงในการรับรู้ไปจนถึงความสมจริงทางฟิสิกส์ เพื่ออธิบายความสามารถในการสร้างของโมเดลอย่างครอบคลุม

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 1: WorldArena ประเมินคุณภาพการสร้างของโมเดลโลกอย่างครอบคลุมในหกมิติสำคัญ

1. คุณภาพการมองเห็น
ประเมินก่อนว่าวิดีโอ “ดูสมจริง” หรือไม่ ผ่านตัวชี้วัดเช่น คุณภาพภาพ คุณภาพทางสุนทรียศาสตร์ และความคล้ายคลึง JEPA เพื่อวัดประสิทธิภาพของวิดีโอที่สร้างในด้านความคมชัด ความประสานกันของสี และความคล้ายคลึงของการกระจาย มิตินี้主要用于อธิบายระดับความสมจริงในด้านการรับรู้และพลังการแสดงออกทางภาพของโมเดล
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

2. คุณภาพการเคลื่อนไหว
แค่ภาพชัดเจนยังไม่เพียงพอ การเคลื่อนไหวสมเหตุสมผลหรือไม่ก็สำคัญเช่นกัน ผ่านระดับของพลวัต ความต่อเนื่องของโฟลว์แสง และความราบรื่นของการเคลื่อนไหว วิเคราะห์ความเข้มข้น ความต่อเนื่อง และความสม่ำเสมอตามเวลาของการเคลื่อนไหวในวิดีโอ มิตินี้ใช้เพื่ออธิบายระดับความเสถียรและลักษณะการเคลื่อนไหวของเนื้อหาที่สร้างขึ้นในมิติเวลา
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

3. ความสม่ำเสมอของเนื้อหา
โลกแห่งความเป็นจริงจะไม่ “เปลี่ยนรูปทันที” ผ่านตัวชี้วัดความสม่ำเสมอของวัตถุหลักและความสม่ำเสมอของพื้นหลัง วัดความเสถียรของวัตถุและฉากในมิติเวลาและพื้นที่ วิเคราะห์ว่ามีปรากฏการณ์เช่น การเลื่อนของโครงสร้าง การเปลี่ยนแปลงอัตลักษณ์ หรือพื้นหลังที่ไม่ต่อเนื่องหรือไม่
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

4. การปฏิบัติตามกฎฟิสิกส์
ความสามารถในการปฏิบัติตามกฎฟิสิกส์เป็นสะพานสำคัญที่เชื่อม “การมองเห็น” กับ “ฟังก์ชัน” ผ่านคุณภาพการโต้ตอบของแขนกลและวัตถุในวิดีโอ และความแม่นยำของวิถี วัดระดับความสมเหตุสมผลของการโต้ตอบระหว่างหุ่นยนต์และวัตถุ รวมถึงความสัมพันธ์ระหว่างวิถีการเคลื่อนไหวกับกฎฟิสิกส์
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

5. ความแม่นยำ 3 มิติ
ความสามารถในการเข้าใจพื้นที่ เป็นพื้นฐานสำคัญสำหรับโมเดลโลกที่จะก้าวสู่ปัญญาแบบมีตัวตน ผ่านตัวชี้วัดความแม่นยำของความลึกและความสม่ำเสมอของทัศนมิติ อธิบายว่าโครงสร้างพื้นที่ของวิดีโอที่สร้างขึ้นสอดคล้องกับกฎเรขาคณิตและทัศนมิติหรือไม่ วิเคราะห์ความสามารถในการเข้าใจความสัมพันธ์โครงสร้างสามมิติของโมเดล
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

6. ความสามารถในการควบคุม
สุดท้าย และเป็นขั้นตอนที่สำคัญที่สุด: โมเดล “เข้าใจคำสั่ง” หรือไม่ ผ่านความสามารถในการปฏิบัติตามคำสั่ง ความสม่ำเสมอทางความหมาย และความสามารถในการปฏิบัติตามการกระทำ วัดระดับการตอบสนองของโมเดลต่ออินพุตภายนอก และความสามารถในการแยกแยะผลลัพธ์ที่สร้างขึ้นภายใต้เงื่อนไขคำสั่งที่แตกต่างกัน
WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"

การประเมินเชิงฟังก์ชันของงานแบบมีตัวตน

นวัตกรรมหลักอีกประการของ WorldArena คือการประเมิน “ความสามารถเชิงฟังก์ชัน” ของโมเดลโลกในงานแบบมีตัวตนจริงอย่างเป็นระบบเป็นครั้งแรก การประเมินไม่ใช่แค่ถามว่า “วิดีโอที่สร้างสมจริงแค่ไหน?” แต่ถามต่อไปว่า “มันสามารถมีส่วนร่วมในการปฏิบัติงานจริงได้หรือไม่?”

เพื่อจุดประสงค์นี้ WorldArena ดำเนินการประเมินอย่างครอบคลุมจากบทบาทสำคัญสามประการ:
1. ในฐานะเครื่องมือสร้างข้อมูล: สามารถเสริมข้อมูลการฝึกกลยุทธ์ขั้นปลายได้อย่างมีประสิทธิภาพหรือไม่?
2. ในฐานะตัวประเมินกลยุทธ์: สามารถอธิบายการเปลี่ยนสถานะของสภาพแวดล้อมจริงได้อย่างแม่นยำหรือไม่?
3. ในฐานะตัววางแผนการกระทำ: มีความสามารถในการสนับสนุนการปฏิบัติแบบปิดวงจรและการตัดสินใจระยะยาวหรือไม่?

การประเมินแบบดั้งเดิมมักหยุดอยู่ที่ระดับการมองเห็น ในขณะที่ WorldArena ขยายการประเมินไปยังงานแบบมีตัวตนขั้นปลายเอง มันให้ความสำคัญกับว่าโมเดลสามารถตัดสินใจอย่างมีประสิทธิภาพในสภาพแวดล้อมแบบไดนามิก จัดการกับการโต้ตอบหลายขั้นตอนที่ซับซ้อน และมีความสามารถในการวางแผนและปฏิบัติงานที่เสถียรหรือไม่ ผ่านกรอบการประเมินที่มุ่งเน้นฟังก์ชันนี้ ทำให้สามารถเข้าใจขอบเขตความสามารถจริงของโมเดลโลกได้อย่างครอบคลุมมากขึ้น และตัดสินศักยภาพในการนำไปประยุกต์ใช้แบบมีตัวตนจริง

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 2: ระบบประเมินงานขั้นปลายแบบมีตัวตน (เครื่องมือสังเคราะห์ข้อมูล ตัวประเมินกลยุทธ์ ตัววางแผนการกระทำ)

EWMScore: ระบบการให้คะแนนรวมที่เป็นหนึ่งเดียว

เพื่อประเมินโมเดลโลกอย่างเป็นรูปธรรมและเปรียบเทียบได้มากขึ้น WorldArena ได้แนะนำตัวชี้วัดรวมที่เป็นหนึ่งเดียว EWMScore ตัวชี้วัดนี้ผสานผลการประเมินหลายมิติ เช่น คุณภาพวิดีโอ ความสม่ำเสมอทางฟิสิกส์ และการปฏิบัติตามคำสั่ง แล้วแมปให้เป็นคะแนนรวม เพื่อให้การอธิบายประสิทธิภาพที่ชัดเจนและเปรียบเทียบในแนวนอนสำหรับแต่ละโมเดล การทดลองแสดงให้เห็นว่า EWMScore มีความสัมพันธ์เชิงบวกสูงกับผลการประเมินโดยมนุษย์ สามารถสะท้อนความสามารถรวมของโมเดลได้อย่างแท้จริง นี่เป็นสัญญาณว่าการประเมินความสามารถของโมเดลโลกกำลังเปลี่ยนจาก “การเปรียบเทียบตัวชี้วัดหลายตัวที่กระจัดกระจาย” สู่ระบบการวัดรวมที่ “เป็นหนึ่งเดียว ตีความได้ และจัดแนวได้”

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 3: EWMScore และการเปรียบเทียบตัวชี้วัดในมิติต่างๆ ของโมเดลโลก 14 ตัว

ช่องว่างระหว่างคุณภาพวิดีโอกับฟังก์ชัน: ความแตกต่างของความสามารถจากการมองเห็นสู่การปฏิบัติ

การประเมินที่เป็นระบบของ WorldArena เผยให้เห็นความเป็นจริงที่สำคัญ: โมเดลโลกในปัจจุบันมีความก้าวหน้าอย่างมากในระดับการสร้างภาพการมองเห็น แต่ยังมีข้อบกพร่องพื้นฐานในด้านการสนับสนุนงานปัญญาแบบมีตัวตนและการตัดสินใจระยะยาว

กล่าวโดยเฉพาะ แม้โมเดลหลายตัวสามารถสร้างเอฟเฟกต์ภาพที่สมจริงสูง แต่ความสม่ำเสมอและความเสถียรในสภาพแวดล้อมทางฟิสิกส์ที่ซับซ้อนนั้นไม่เพียงพออย่างเห็นได้ชัด โดยเฉพาะในงานที่ต้องโต้ตอบหลายขั้นตอนและยาวนาน โมเดลมักจะปฏิบัติตามกฎฟิสิกส์อย่างต่อเนื่องได้ยาก มีแนวโน้มที่จะเกิดการเลื่อนของพลวัต การเบี่ยงเบนเป้าหมาย หรือกลยุทธ์ไม่เสถียร นี่แสดงให้เห็นว่าการพึ่งพาความสามารถในการสร้างภาพการมองเห็นเพียงอย่างเดียว ยังไม่เพียงพอที่จะก้าวข้ามคอขวดหลักของปัญญาแบบมีตัวตน

ผ่านการประเมินระบบของงานขั้นปลายแบบมีตัวตนสามประเภทหลัก ได้แก่ เครื่องมือข้อมูล ตัวประเมินกลยุทธ์ และตัววางแผนการกระทำ WorldArena ยืนยันข้อสรุปนี้เพิ่มเติม: โมเดลโลกในปัจจุบันแม้จะสร้างวิดีโอที่ “ดูดี” ได้ แต่ยังไม่มีความสามารถในการสนับสนุนการประยุกต์ใช้แบบมีตัวตนจริง

ยกตัวอย่างงานเครื่องมือข้อมูล เราใช้โมเดลโลกสร้างวิถีสังเคราะห์ เพื่อเสริมข้อมูลการฝึกสำหรับโมเดลกลยุทธ์ขั้นปลาย (เช่น VLA) ผลการทดลองแสดงให้เห็นว่าโมเดลบางตัวสามารถนำมาซึ่งการปรับปรุงประสิทธิภาพในระดับหนึ่งได้จริง แต่โดยรวมแล้ว คุณภาพข้อมูลที่สร้างขึ้นยังล้าหลังข้อมูลจริงอย่างมีนัยสำคัญ โมเดลส่วนใหญ่ยังยากที่จะให้ผลประโยชน์ที่เสถียรและน่าเชื่อถือสำหรับการเรียนรู้กลยุทธ์ขั้นปลาย

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่การปรับโครงสร้างกระบวนทัศน์ของ "ความฉลาดเชิงฟังก์ชัน"
ตารางที่ 2: การเปรียบเทียบประสิทธิภาพของ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22945

Like (0)
Previous 2026年2月13日 pm12:45
Next 2026年2月13日 pm12:49

相关推荐