WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก “การแข่งขันภายในด้านการมองเห็น” สู่ความก้าวหน้าทาง “ความฉลาดเชิงฟังก์ชัน”

2026年2月13日 pm12:51 • ข่าวสารอุตสาหกรรม AI • 197 views

เมื่อวิดีโอที่สร้างโดยโมเดลโลกสามารถ “หลอกตา” ได้ ทำไมหุ่นยนต์ถึงยังคง “มีตาแต่ไม่มีสมอง”?

13 กุมภาพันธ์ 2026 ข่าวสำคัญจากแนวหน้าของปัญญาประดิษฐ์เชิงกายภาพ (Embodied AI) ก่อให้เกิดความสั่นสะเทือนในแวดวงวิชาการและอุตสาหกรรม: WorldArena ซึ่งเป็นระบบประเมินแบบครบวงจร “ฟังก์ชัน + การมองเห็น” แรกของโลกสำหรับโมเดลโลกเชิงกายภาพ (Embodied World Models) ที่พัฒนาโดยสถาบันชั้นนำอย่าง มหาวิทยาลัยชิงหวา, มหาวิทยาลัยปักกิ่ง, มหาวิทยาลัยฮ่องกง, มหาวิทยาลัยพรินซ์ตัน, สถาบันวิทยาศาสตร์จีน, มหาวิทยาลัยเจียวทงเซี่ยงไฮ้, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน, มหาวิทยาลัยแห่งชาติสิงคโปร์ และอื่นๆ ได้เปิดตัวและปล่อยเป็นโอเพนซอร์สสู่สาธารณะทั่วโลกอย่างเป็นทางการ

นี่ไม่ใช่แค่การจัดอันดับ “ใครวาดภาพได้สมจริงกว่า” อีกชุดหนึ่ง แต่เป็นกระจกที่สะท้อนแก่นแท้ของโมเดลโลก

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่ความก้าวหน้าทาง "ความฉลาดเชิงฟังก์ชัน"

จุดระเบิดโดยตรง: คะแนนการมองเห็นเต็ม แต่คะแนนงานเป็นศูนย์?

WorldArena ฉีกหน้ากาก “วิดีโอสวยงาม” เป็นครั้งแรก

“วิดีโอที่สร้างโดยโมเดลหลายตัว ดูด้วยตามนุษย์แทบจะสมบูรณ์แบบ แต่เมื่อให้มันควบคุมหุ่นยนต์หยิบแก้วจริงๆ — ข้อบกพร่องก็ปรากฏขึ้นทันที”

ทีมวิจัย WorldArena กล่าวตรงไปตรงมาว่า: การประเมินโมเดลโลกในปัจจุบันถูกครอบงำด้วย “การแข่งขันด้านการมองเห็น” มานานเกินไป โมเดลไหนสร้างวิดีโอได้ชัดเจนกว่า ราบรื่นกว่า คล้ายเอฟเฟกต์ฮอลลีวูดมากกว่า ก็ได้คะแนนสูงกว่า แต่โลกแห่งความเป็นจริงไม่ใช่ภาพยนตร์ — สิ่งที่หุ่นยนต์ต้องการคือความเข้าใจกฎฟิสิกส์ ความแม่นยำของวิถีการเคลื่อนไหว ความเสถียรของการตัดสินใจหลายขั้นตอน ไม่ใช่ “สไลด์โชว์” ที่สวยงามทีละเฟรม

WorldArena พิสูจน์ด้วยข้อมูลเป็นครั้งแรก: ความสัมพันธ์ระหว่างคุณภาพการมองเห็นกับความสามารถในการปฏิบัติงาน มีเพียง 0.36!

นี่หมายความว่า: โมเดลหนึ่งสามารถสร้างวิดีโอระดับรางวัลออสการ์ได้ แต่กลับ “ไร้ความสามารถ” เกือบสมบูรณ์ในงานจริง

นวัตกรรมหลัก: จาก “ดูสมจริง” สู่ “ใช้งานได้อย่างน่าเชื่อถือ”

WorldArena ไม่ใช่การปรับปรุงแก้ไขระบบประเมินที่มีอยู่ แต่เป็นการปรับโครงสร้างกระบวนทัศน์การประเมินครั้งสำคัญ

นวัตกรรมที่หนึ่ง: การประเมินการมองเห็นหกมิติ ไม่ใช่แค่ “ดูสวยหรือไม่”

การมองเห็นไม่ใช่แค่ “ความสวยงามเชิงเดียว” อีกต่อไป แต่ถูกแยกย่อยออกเป็นหกมิติ: คุณภาพการมองเห็น, คุณภาพการเคลื่อนไหว, ความสม่ำเสมอของเนื้อหา, การปฏิบัติตามกฎฟิสิกส์, ความถูกต้อง 3 มิติ, และความสามารถในการควบคุม โดยเฉพาะการปฏิบัติตามกฎฟิสิกส์และความเข้าใจพื้นที่ 3 มิติ ถูกยกระดับให้มีความสำคัญเทียบเท่ากับคุณภาพภาพ — เพราะหุ่นยนต์ไม่เชื่อ “มายากล” แต่เชื่อฟิสิกส์

นวัตกรรมที่สอง: งานเชิงกายภาพสามประเภท ทดสอบโดยตรงว่า “ใช้งานได้หรือไม่”

WorldArena เป็นครั้งแรกของโลกที่นำโมเดลโลกมาทดสอบความเครียดในสายงานงานเชิงกายภาพจริง:

ในฐานะเครื่องมือสร้างข้อมูล: วิถีที่มันสังเคราะห์ขึ้น สามารถนำไปฝึกโมเดลกลยุทธ์ให้ดีขึ้นได้หรือไม่?
ในฐานะเครื่องมือประเมินกลยุทธ์: การสร้างแบบจำลองพลวัตสภาพแวดล้อมของมัน สัมพันธ์อย่างสูงกับเครื่องมือจำลองฟิสิกส์จริงหรือไม่?
ในฐานะเครื่องมือวางแผนการกระทำ: มันสามารถทำงานแบบวงจรปิดที่ต้องมีปฏิสัมพันธ์หลายขั้นตอนและต่อเนื่องยาวนานได้หรือไม่?

ผลลัพธ์น่าตกใจ: โมเดลส่วนใหญ่ที่ได้คะแนนการมองเห็นสูง “พ่ายแพ้ยับเยิน” ในการประเมินงาน ในขณะที่โมเดลส่วนน้อยที่เน้นการสร้างแบบจำลองตามเงื่อนไขการเคลื่อนไหว (เช่น CtrlWorld) แม้การมองเห็นจะไม่ใช่ระดับท็อป แต่กลับมีความสัมพันธ์ในการประเมินกลยุทธ์สูงถึง 0.986 เกือบเทียบเท่าสภาพแวดล้อมจริง

EWMScore: หนึ่งคะแนน ที่เชื่อมโยงการรับรู้ของมนุษย์กับความสามารถของโมเดล

WorldArena ยังได้เปิดตัวระบบคะแนนรวม EWMScore ซึ่งแมปตัวชี้วัดการประเมินวัตถุวิสัยหลายมิติให้เป็นคะแนนเดียวที่สามารถเปรียบเทียบข้ามกันได้ สิ่งสำคัญยิ่งไปกว่านั้นคือ: EWMScore มีความสัมพันธ์เชิงบวกสูงกับการประเมินอัตนัยของมนุษย์ — มันไม่ใช่ “ตัวชี้วัดวิชาการกล่องดำ” อีกต่อไป แต่เป็นมาตรวัดที่สะท้อนการรับรู้จริงของมนุษย์

ความหมายเชิงวิชาการ: “ช่วงเวลา iPhone” ของโมเดลโลกยังมาไม่ถึง

“เรายังมีเส้นทางสำคัญอีกช่วงหนึ่งก่อนจะถึงโมเดลโลกเชิงกายภาพที่ใช้งานได้จริง”

นี่ไม่ใช่การมองโลกในแง่ร้าย แต่เป็นการหันหลังให้กับความเข้าใจเดิมอย่างชัดเจน WorldArena ใช้การทดลองที่เป็นระบบเพื่อส่งสัญญาณไปยังนักวิจัยทั่วโลก: ความสามารถในการสร้างภาพการมองเห็นใกล้ถึงขีดจำกัดแล้ว แต่ปัญญาด้านการทำงานเพิ่งเริ่มต้น เมื่อโมเดลสามารถสร้างภาพ “โค้กที่ดูเย็นเฉียบ” ได้ แต่ไม่รู้ว่าน้ำแข็งจะลอย กำแพงแก้วจะเกิดหยดน้ำ มันก็ยังคงเป็น “โมเดลการมองเห็น” ไม่ใช่ “โมเดลโลก”

เปิดกว้างเพื่อสร้างร่วมกัน มอบสิทธิ์การประเมินให้ชุมชนทั่วโลก

WorldArena เป็นแพลตฟอร์มชุมชนที่เปิดกว้างเต็มที่ ทำซ้ำได้ และพัฒนาต่อยอดอย่างต่อเนื่อง

หน้าโครงการหลัก: http://world-arena.ai
เอกสารวิชาการเผยแพร่แล้ว: http://arxiv.org/abs/2602.08971
กระดานคะแนนประเมินอัปเดตแบบเรียลไทม์: https://huggingface.co/spaces/WorldArena/WorldArena
เปิดซอร์สโค้ดและข้อมูลทั้งหมด: https://github.com/tsinghua-fib-lab/WorldArena

“เราไม่ได้สร้างกระดานจัดอันดับ แต่กำลังสร้าง ‘ระบบสอบใบขับขี่’ สำหรับปัญญาประดิษฐ์เชิงกายภาพ”
— ทีม WorldArena

รายละเอียดการประเมิน

การประเมินคุณภาพวิดีโอหลายมิติ

เพื่อสร้างมาตรฐานการประเมินการมองเห็นที่เป็นระบบ WorldArena ได้สร้างหกมิติหลัก ตั้งแต่การรับรู้ความสมจริงไปจนถึงความสมจริงทางฟิสิกส์ เพื่ออธิบายความสามารถในการสร้างของโมเดลอย่างครอบคลุม

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่ความก้าวหน้าทาง "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 1 WorldArena ประเมินคุณภาพการสร้างของโมเดลโลกอย่างครอบคลุมในหกมิติสำคัญ

1. คุณภาพการมองเห็น

ประเมินว่าวิดีโอ “ดูสมจริง” หรือไม่เป็นอันดับแรก ผ่านตัวชี้วัดเช่น คุณภาพภาพ, คุณภาพทางสุนทรียศาสตร์ และความคล้ายคลึง JEPA เพื่อวัดประสิทธิภาพของวิดีโอที่สร้างขึ้นในด้านความชัดเจน, ความสอดคล้องของสี และความคล้ายคลึงของการกระจายตัว มิตินี้เน้นอธิบายระดับความสมจริงและพลังการแสดงออกทางภาพของโมเดลในระดับการรับรู้

2. คุณภาพการเคลื่อนไหว

แค่มีภาพชัดเจนไม่เพียงพอ การเคลื่อนไหวสมเหตุสมผลหรือไม่ก็สำคัญเช่นกัน เราวิเคราะห์ความเข้มข้น, ความต่อเนื่อง และความสม่ำเสมอตามเวลาของการเคลื่อนไหวในวิดีโอผ่านระดับการเคลื่อนไหว, ความต่อเนื่องของโฟลว์แสง และความราบรื่นของการเคลื่อนไหว มิตินี้ใช้เพื่ออธิบายระดับความเสถียรและลักษณะการเคลื่อนไหวของเนื้อหาที่สร้างขึ้นในระดับเวลา

3. ความสม่ำเสมอของเนื้อหา

โลกแห่งความเป็นจริงจะไม่ “เปลี่ยนรูปทันที” เราวัดความเสถียรของวัตถุและฉากในมิติเวลาและพื้นที่ผ่านตัวชี้วัดความสม่ำเสมอของวัตถุหลักและความสม่ำเสมอของพื้นหลัง วิเคราะห์ว่ามีปรากฏการณ์เช่น การเลื่อนของโครงสร้าง, การเปลี่ยนแปลงอัตลักษณ์ หรือพื้นหลังที่ไม่ต่อเนื่องหรือไม่

4. การปฏิบัติตามกฎฟิสิกส์

ความสามารถในการปฏิบัติตามกฎฟิสิกส์เป็นสะพานสำคัญที่เชื่อมโยง “การมองเห็น” กับ “การทำงาน” ผ่านคุณภาพการโต้ตอบของแขนกลและวัตถุในวิดีโอ และความแม่นยำของวิถีการเคลื่อนไหว เพื่อประเมินระดับความสมเหตุสมผลของการโต้ตอบระหว่างหุ่นยนต์กับวัตถุ และความสัมพันธ์ระหว่างวิถีการเคลื่อนไหวกับกฎฟิสิกส์

5. ความถูกต้อง 3 มิติ

ความสามารถในการเข้าใจพื้นที่ เป็นพื้นฐานสำคัญของโมเดลโลกในการก้าวสู่ปัญญาประดิษฐ์เชิงกายภาพ เราอธิบายว่าการจัดโครงสร้างพื้นที่ของวิดีโอที่สร้างขึ้นสอดคล้องกับกฎเรขาคณิตและทัศนียภาพหรือไม่ ผ่านตัวชี้วัดความถูกต้องของความลึกและความสม่ำเสมอของทัศนียภาพ วิเคราะห์ความสามารถของโมเดลในการเข้าใจความสัมพันธ์โครงสร้างสามมิติ

6. ความสามารถในการควบคุม

สุดท้าย และเป็นขั้นตอนที่สำคัญที่สุด: โมเดล “เข้าใจคำสั่ง” หรือไม่ ประเมินระดับการตอบสนองของโมเดลต่ออินพุตภายนอก และความสามารถในการแยกแยะผลลัพธ์ที่สร้างขึ้นภายใต้เงื่อนไขคำสั่งที่แตกต่างกัน ผ่านความสามารถในการปฏิบัติตามคำสั่ง, ความสม่ำเสมอทางความหมาย และความสามารถในการปฏิบัติตามการกระทำ

การประเมินการทำงานของงานเชิงกายภาพ

นวัตกรรมหลักอีกประการของ WorldArena คือการประเมิน “ความสามารถในการทำงาน” ของโมเดลโลกในงานเชิงกายภาพจริงอย่างเป็นระบบเป็นครั้งแรก เราไม่ได้ถามแค่ว่าโมเดลสร้างวิดีโอได้สมจริงแค่ไหน? แต่ถามต่อไปว่า: มันสามารถมีส่วนร่วมในการปฏิบัติงานได้จริงหรือไม่?

เพื่อจุดประสงค์นี้ WorldArena ประเมินความสามารถของโมเดลโลกอย่างครอบคลุมจากบทบาทสำคัญสามประการ:
1. ในฐานะเครื่องมือสร้างข้อมูล สามารถเสริมข้อมูลการฝึกกลยุทธ์ขั้นปลายได้อย่างมีประสิทธิภาพหรือไม่?
2. ในฐานะเครื่องมือประเมินกลยุทธ์ สามารถอธิบายการเปลี่ยนสถานะของสภาพแวดล้อมจริงได้อย่างแม่นยำหรือไม่?
3. ในฐานะเครื่องมือวางแผนการกระทำ มีความสามารถในการสนับสนุนการทำงานแบบวงจรปิดและการตัดสินใจระยะยาวหรือไม่?

การประเมินแบบดั้งเดิมมักหยุดอยู่ที่ระดับการมองเห็น ในขณะที่ WorldArena ขยายการประเมินไปยังงานเชิงกายภาพขั้นปลายเอง เราให้ความสนใจว่าโมเดลสามารถตัดสินใจได้อย่างมีประสิทธิภาพในสภาพแวดล้อมแบบไดนามิกหรือไม่, สามารถจัดการกับการโต้ตอบหลายขั้นตอนที่ซับซ้อนได้หรือไม่, และมีความสามารถในการวางแผนและดำเนินการที่เสถียรหรือไม่ ผ่านกรอบการประเมินที่มุ่งเน้นการทำงานนี้ เราสามารถเข้าใจขอบเขตความสามารถจริงของโมเดลโลกได้อย่างครอบคลุมมากขึ้น และตัดสินว่าพวกมันมีศักยภาพที่จะก้าวไปสู่การใช้งานเชิงกายภาพจริงหรือไม่

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่ความก้าวหน้าทาง "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 2 ระบบประเมินงานขั้นปลายเชิงกายภาพ (เครื่องมือสังเคราะห์ข้อมูล, เครื่องมือประเมินกลยุทธ์, เครื่องมือวางแผนการกระทำ)

EWMScore: ระบบคะแนนรวมที่เป็นหนึ่งเดียว

เพื่อให้ผลการประเมินเข้าใจง่ายและเปรียบเทียบข้ามกันได้มากขึ้น WorldArena ได้แนะนำตัวชี้วัดรวมที่เป็นหนึ่งเดียว EWMScore ตัวชี้วัดนี้รวบรวมผลการประเมินหลายมิติ เช่น คุณภาพวิดีโอ, ความสม่ำเสมอทางฟิสิกส์ และความสามารถในการปฏิบัติตามคำสั่ง แล้วแมปให้เป็นคะแนนรวม เพื่อให้การอธิบายประสิทธิภาพที่ชัดเจนและเปรียบเทียบได้สำหรับแต่ละโมเดล การทดลองแสดงให้เห็นว่า EWMScore มีความสัมพันธ์เชิงบวกสูงกับผลการประเมินโดยมนุษย์ สามารถสะท้อนความสามารถรวมของโมเดลได้อย่างแท้จริง นี่เป็นสัญญาณว่าการประเมินความสามารถของโมเดลโลก กำลังเปลี่ยนจาก “การเปรียบเทียบตัวชี้วัดหลายตัวที่กระจัดกระจาย” สู่ระบบการวัดผลรวมที่ “เป็นหนึ่งเดียว, อธิบายได้, และเชื่อมโยงกัน”

WorldArena: ปฏิวัติการประเมินโมเดลโลก จาก "การแข่งขันภายในด้านการมองเห็น" สู่ความก้าวหน้าทาง "ความฉลาดเชิงฟังก์ชัน"
รูปที่ 3: EWMScore และการเปรียบเทียบตัวชี้วัดในมิติต่างๆ ของโมเดลโลก 14 ตัว

ช่องว่างระหว่างคุณภาพวิดีโอและการทำงาน: ความแตกต่างของความสามารถจากการมองเห็นสู่การปฏิบัติ

การประเมินที่เป็นระบบของ WorldArena เผยให้เห็นความเป็นจริงที่สำคัญ: โมเดลโลกในปัจจุบันมีความก้าวหน้าอย่างเห็นได้ชัดในระดับการสร้างภาพการมองเห็น แต่ยังมีข้อบกพร่องพื้นฐานในการสนับสนุนงานปัญญาประดิษฐ์เชิงกายภาพและการตัดสินใจระยะยาว

กล่าวโดยเฉพาะ แม้โมเดลหลายตัวสามารถสร้างเอฟเฟกต์ภาพที่สมจริงสูง แต่ความสม่ำเสมอและความเสถียรในสภาพแวดล้อมทางฟิสิกส์ที่ซับซ้อนกลับไม่เพียงพออย่างเห็นได้ชัด โดยเฉพาะในงานที่ต้องมีปฏิสัมพันธ์หลายขั้นตอนและต่อเนื่องยาวนาน โมเดลมักจะปฏิบัติตามกฎฟิสิกส์อย่างต่อเนื่องได้ยาก มีแนวโน้มที่จะเกิดการเลื่อนของไดนามิกส์, การเบี่ยงเบนเป้าหมาย หรือกลยุทธ์ที่ไม่เสถียร นี่แสดงให้เห็นว่า การพึ่งพาความสามารถในการสร้างภาพการมองเห็นเพียงอย่างเดียว ยังไม่เพียงพอที่จะก้าวข้ามคอขวดหลักของปัญญาประดิษฐ์เชิงกายภาพ

ผ่านการประเมินเชิงระบบของงานขั้นปลายเชิงกายภาพสำคัญสามประเภท ได้แก่ เครื่องมือข้อมูล, การประเมินกลยุทธ์, และการวางแผนการกระทำ WorldArena ยืนยันข้อสรุปข้างต้นเพิ่มเติม: โมเดลโลกในปัจจุบันแม้จะสร้างวิดีโอที่ “ดูดี” ได้ แต่ยังไม่มีความสามารถในการสนับสนุนการใช้งานเชิงกายภาพจริง

ยกตัวอย่างงานเครื่องมือข้อมูล เราใช้โมเดลโลกสร้างวิถีการเคลื่อนไหวสังเคราะห์ เพื่อใช้เสริมข้อมูลการฝึกสำหรับโมเดลกลยุ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22942

Like (0)

0 0

ความก้าวหน้าครั้งใหม่ในการให้เหตุผลแบบมัลติโมดัลแบบโอเพนซอร์ส: กรอบ MMFineReason พลิกเกมด้วยพารามิเตอร์ 4B เอาชนะโมเดล 30B เปิดยุคการให้เหตุผลประสิทธิภาพสูงที่ขับเคลื่อนด้วยข้อมูล

Previous 2026年2月13日 pm12:49

Next 2026年2月13日 pm12:55

ข่าวสารอุตสาหกรรม AI

อัลกอริทึม GRPO ช่วยเสริมระบบมัลติเอเจนต์: วิธีการฝึกอบรมปฏิวัติวงการเพื่อการวางแผนงานที่ซับซ้อน

ระบบเอเจนต์ที่มุ่งเน้นงานระยะยาวจำเป็นต้องมีความสามารถในการวางแผน ใช้เครื่องมืออย่างถูกต้อง และดำเนินการอย่างเป็นขั้นตอน ระบบเอเจนต์สมัยใหม่ส่วนใหญ่พึ่งพาการให้เหตุผล โดยแต่ละครั้ง…

2026年2月13日
194000
ข่าวสารอุตสาหกรรม AI

HKU เปิดตัวผู้ช่วย AI น้ำหนักเบา ‘nanobot’: รหัสเพียง 4,000 บรรทัด รองรับหลายแพลตฟอร์มและ LLM หลัก ดาวบน GitHub พุ่ง 13,000 ดวง

ห้องปฏิบัติการวิทยาศาสตร์ข้อมูลของมหาวิทยาลัยฮ่องกงได้เปิดตัวโครงการผู้ช่วย AI ส่วนบุคคลน้ำหนักเบาพิเศษชื่อ nanobot โครงการนี้ให้ความสำคัญอย่างยิ่งกับความสามารถในการอ่านโค้ด ความเป…

2026年2月11日
296000
ข่าวสารอุตสาหกรรม AI

การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

GLM-OCR โมเดลประเมิน: การรู้จำข้อความและการวิเคราะห์ตารางในทางปฏิบัติด้วยพารามิเตอร์ 0.9B เทคโนโลยี OCR (การรู้จำอักขระด้วยแสง) กำลังพัฒนาอย่างต่อเนื่อง ล่าสุด Zhipu AI ได้เปิดตัวโ…

2026年2月11日
230000
ข่าวสารอุตสาหกรรม AI

สองยักษ์ใหญ่ AI วิดีโอของจีนผงาด: Seedance 2.0 และ Vidu Q3 ร่วมทีมกวาดล้างทั่วโลก

ในวงการสร้างวิดีโอด้วย AI ความร้อนแรงของ Seedance 2.0 ไม่ใช่เรื่องบังเอิญ การที่ครั้งนี้สามารถ “ทะลุวง” ได้จริง ส่วนใหญ่มาจากการมี “ความคิดแบบผู้กำกับ” ของม…

2026年2月12日
223000
OpenClaw (Clawdbot) เปิดใช้งานฟังก์ชันการโทรแบบแอคทีฟ: ผู้ช่วย AI ก้าวสู่ยุคใหม่แห่งการโต้ตอบ

OpenClaw (Clawdbot) บรรลุฟังก์ชันการโทรออกเชิงรุก: ผู้ช่วย AI ก้าวสู่ยุคใหม่แห่งการโต้ตอบ ในแวดวงผู้ช่วยปัญญาประดิษฐ์ การทำให้การสนทนาเป็นไปอย่างเป็นธรรมชาติและเชิงรุกเป็นเป้าหมายห…

ข่าวสารอุตสาหกรรม AI 2026年2月7日
219000

จุดระเบิดโดยตรง: คะแนนการมองเห็นเต็ม แต่คะแนนงานเป็นศูนย์?

WorldArena ฉีกหน้ากาก “วิดีโอสวยงาม” เป็นครั้งแรก

นวัตกรรมหลัก: จาก “ดูสมจริง” สู่ “ใช้งานได้อย่างน่าเชื่อถือ”

ความหมายเชิงวิชาการ: “ช่วงเวลา iPhone” ของโมเดลโลกยังมาไม่ถึง

เปิดกว้างเพื่อสร้างร่วมกัน มอบสิทธิ์การประเมินให้ชุมชนทั่วโลก

รายละเอียดการประเมิน

การประเมินคุณภาพวิดีโอหลายมิติ

การประเมินการทำงานของงานเชิงกายภาพ

EWMScore: ระบบคะแนนรวมที่เป็นหนึ่งเดียว

ช่องว่างระหว่างคุณภาพวิดีโอและการทำงาน: ความแตกต่างของความสามารถจากการมองเห็นสู่การปฏิบัติ

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

อัลกอริทึม GRPO ช่วยเสริมระบบมัลติเอเจนต์: วิธีการฝึกอบรมปฏิวัติวงการเพื่อการวางแผนงานที่ซับซ้อน

HKU เปิดตัวผู้ช่วย AI น้ำหนักเบา ‘nanobot’: รหัสเพียง 4,000 บรรทัด รองรับหลายแพลตฟอร์มและ LLM หลัก ดาวบน GitHub พุ่ง 13,000 ดวง

การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

สองยักษ์ใหญ่ AI วิดีโอของจีนผงาด: Seedance 2.0 และ Vidu Q3 ร่วมทีมกวาดล้างทั่วโลก

OpenClaw (Clawdbot) เปิดใช้งานฟังก์ชันการโทรแบบแอคทีฟ: ผู้ช่วย AI ก้าวสู่ยุคใหม่แห่งการโต้ตอบ