โมเดลโลกที่ผลิตในจีน Manifold AI ขึ้นอันดับหนึ่งใน WorldArena: กฎฟิสิกส์เป็นอันดับหนึ่งแบบขาดลอย สถาปัตยกรรม MoE เปิดบทใหม่ของ Scaling Law

23 hours ago • การประเมินโมเดลขนาดใหญ่ • 15 views

เมื่อเร็ว ๆ นี้ แพลตฟอร์มการประเมินมาตรฐานโลกจำลองที่มีกายภาพ (Embodied World Model) ระดับโลก WorldArena ได้อัปเดตอันดับล่าสุดอย่างเป็นทางการ Worldscape 0.2 ซึ่งพัฒนาโดย Manifold AI (流形空间) ประสบความสำเร็จในการขึ้นสู่อันดับหนึ่งของโลกใน WorldArena ด้วยความก้าวหน้าครั้งสำคัญในการปฏิบัติตามกฎทางฟิสิกส์และความเข้าใจปฏิสัมพันธ์จากหลายแหล่ง ความสำเร็จนี้แสดงให้เห็นถึงความแม่นยำสูง ความสามารถในการสรุปทั่วไปที่แข็งแกร่ง และความน่าเชื่อถือทางฟิสิกส์ของโมเดลโลกที่ผลิตในประเทศในการสร้างฉากไดนามิกที่ซับซ้อนและงานควบคุมที่มีกายภาพ คู่แข่งที่เข้าร่วมการประเมินครั้งนี้รวมถึงยักษ์ใหญ่ด้านเทคโนโลยีต่างประเทศ เช่น NVIDIA และ Google รวมถึงบริษัทปัญญาประดิษฐ์ที่มีกายภาพในประเทศ เช่น 星动纪元 และ 极佳视界

WorldArena เป็นระบบการประเมินแบบครบวงจร “ฟังก์ชัน + ภาพ” แรกที่ออกแบบมาเฉพาะสำหรับโมเดลโลกที่มีกายภาพ โดยเปิดตัวร่วมกันโดยสถาบันวิชาการชั้นนำ เช่น มหาวิทยาลัยชิงหัว มหาวิทยาลัยปักกิ่ง มหาวิทยาลัยฮ่องกง มหาวิทยาลัยพรินซ์ตัน สถาบันวิทยาศาสตร์จีน มหาวิทยาลัยเซี่ยงไฮ้เจียวทง มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีจีน และมหาวิทยาลัยแห่งชาติสิงคโปร์ ปัจจุบันได้กลายเป็นมาตรฐานการประเมินสาธารณะระดับนานาชาติที่ได้รับการยอมรับในสาขาโมเดลโลกที่มีกายภาพ

ในมิติการประเมินของ WorldArena นอกเหนือจากคุณภาพของภาพแล้ว ยังครอบคลุมถึงคุณภาพของการเคลื่อนไหว ความสอดคล้องของเนื้อหา การปฏิบัติตามกฎทางฟิสิกส์ ความแม่นยำ 3 มิติ และความสามารถในการควบคุม ตัวชี้วัดเหล่านี้ประเมินความลึกของความเข้าใจกฎทางฟิสิกส์ของแต่ละโมเดล ความแม่นยำของเส้นทางการเคลื่อนไหว และความเสถียรของการตัดสินใจหลายขั้นตอน ซึ่งเป็นความสามารถหลักที่ “สมองที่มีกายภาพ” ควรให้ความสำคัญมากที่สุด นอกจากนี้ WorldArena ยังรวมถึงการประเมินแบบครบวงจรของสามงานปลายน้ำ ได้แก่ โมเดลโลกในฐานะ Data Engine, Policy Evaluator และ Action Planner ในที่สุด ผลการประเมินเชิงวัตถุวิสัยเหล่านี้จะถูกรวมเข้ากับการประเมินเชิงอัตนัยของมนุษย์เพื่อคำนวณดัชนี EWMScore ที่มีความครอบคลุมสูง

โมเดลโลกที่ผลิตในจีน Manifold AI ขึ้นอันดับหนึ่งใน WorldArena: กฎฟิสิกส์เป็นอันดับหนึ่งแบบขาดลอย สถาปัตยกรรม MoE เปิดบทใหม่ของ Scaling Law

การขึ้นสู่อันดับหนึ่งของ WorldScape 0.2 ใน WorldArena ไม่ได้เกิดจากการเน้นด้านใดด้านหนึ่ง แต่แสดงให้เห็นถึงคุณภาพโดยรวมที่ยอดเยี่ยมและข้อได้เปรียบที่โดดเด่น ผลการดำเนินงานเฉพาะมีดังนี้:

คะแนนการรับรู้โดยรวมอยู่ในอันดับต้น: ในการประเมินการรับรู้โดยรวมที่เข้มงวดมาก ซึ่งรวมถึงหลายมิติ เช่น คุณภาพของภาพ คุณภาพการเคลื่อนไหว ความสอดคล้องของเนื้อหา และความสามารถในการควบคุม WorldScape 0.2 ได้อันดับหนึ่งโดยรวม ที่สำคัญกว่านั้น มันสร้างสมดุลที่สมบูรณ์แบบระหว่างความสามารถต่าง ๆ โดยไม่มี “จุดอ่อน” ที่ชัดเจน สามารถรองรับงานที่มีกายภาพระยะยาวที่ซับซ้อนได้อย่างครอบคลุม
การปฏิบัติตามกฎทางฟิสิกส์เป็นอันดับหนึ่งอย่างขาดลอย: โมเดลการสร้างในอดีตมัก “ให้ความสำคัญกับภาพ ละเลยฟิสิกส์” พฤติกรรมที่สร้างขึ้นแม้จะดูสมเหตุสมผล แต่ขัดต่อข้อจำกัดทางฟิสิกส์ของโลกจริง WorldScape 0.2 ไม่เพียงได้คะแนนสูงสุดในตัวชี้วัดนี้ แต่ยังนำหน้าอันดับสองอย่างมาก ซึ่งแสดงให้เห็นว่าโมเดล “ซึมซับ” ตรรกะทางกลศาสตร์ เช่น แรงโน้มถ่วง แรงเสียดทาน การชน และการตอบสนองต่อแรงได้อย่างแท้จริง ฉากที่สร้างขึ้นไม่เพียง “ดูเหมือน” แต่ยัง “ถูกต้อง” ทางฟิสิกส์ มีความสามารถอย่างสมบูรณ์ในการเป็นเครื่องจำลองทางฟิสิกส์ที่เชื่อถือได้สูงเพื่อแนะนำการทำงานของหุ่นยนต์จริง
ความเข้าใจพื้นที่สามมิติที่ยอดเยี่ยม: โมเดลยังแสดงระดับสูงในตัวชี้วัดที่ยากอย่างความแม่นยำ 3 มิติ ซึ่งบ่งชี้ว่า WorldScape 0.2 ยังคงรักษาโครงสร้างเรขาคณิตสามมิติที่มีความแม่นยำสูงเมื่อจัดการกับการควบคุมแขนกลที่ซับซ้อน การเปลี่ยนมุมมอง และการบดบังวัตถุ หลีกเลี่ยงปรากฏการณ์ “การบิดเบือนพื้นที่” หรือ “การเป็นแผ่นกระดาษสองมิติ” ที่พบได้ทั่วไปในโมเดลวิดีโอแบบดั้งเดิมได้อย่างมีประสิทธิภาพ ให้พื้นฐานโครงสร้างพื้นที่ที่แข็งแกร่งสำหรับปฏิสัมพันธ์จากหลายแหล่ง

เมื่อหนึ่งเดือนที่แล้ว อันดับการประเมินโมเดลโลกทั่วไปที่มีชื่อเสียงระดับโลก WorldScore ได้รับการอัปเดต โมเดล WorldScape 0.1 ที่พัฒนาโดย Manifold AI ขึ้นสู่อันดับหนึ่งใน WorldScore อย่างแข็งแกร่ง (ทั้งสองตัวชี้วัด WorldScore-Static และ WorldScore-Dynamic อยู่ในอันดับหนึ่ง) และรักษาอันดับหนึ่งไว้ได้จนถึงปัจจุบันในการแข่งขันระดับโลก

ในการแข่งขันระดับโลกของโมเดลโลก WorldScore ได้รับการยอมรับว่าเป็น “ศิลาทดสอบสูงสุด” สำหรับตรวจสอบความแข็งแกร่งพื้นฐานของโมเดลโลกทั่วไป เกณฑ์มาตรฐานนี้ทดสอบความสามารถในการสร้างของโมเดลในหลายพันฉากที่แตกต่างกันจากหลายมิติ เช่น ความสามารถในการควบคุมและคุณภาพการสร้าง โดยทำการทดสอบขีดจำกัดอย่างเข้มงวดต่อโมเดล เมื่อเผชิญกับอุปสรรคสูงนี้ โมเดล WorldScape 0.1 ที่พัฒนาโดย Manifold AI (流形空间) ทะลุผ่านได้อย่างแข็งแกร่ง โดยคะแนนรวมอยู่ในอันดับต้นของโลก คู่แข่งที่แข่งขันร่วมกันรวมถึงทีมของ Li Feifei, MIT, Alibaba, Runway, 智谱, MiniMax, 腾讯混元 เป็นต้น

เป็นเวลานานที่โรคทั่วไปของโมเดลโลกคือ “เน้นการเรนเดอร์ ละเลยกฎ” วิดีโอที่สร้างขึ้นอาจดูสวยงาม แต่เมื่อเกี่ยวข้องกับการเคลื่อนไหวในฉากที่ซับซ้อนหรือการควบคุมหลายขั้นตอน มักจะมีจุดบกพร่องมากมาย ในขณะที่ WorldScape กลับมีข้อได้เปรียบที่ชัดเจนในตัวชี้วัดทางฟิสิกส์และปฏิสัมพันธ์ที่ยากที่สุด จึงประสบความสำเร็จในการขึ้นสู่อันดับหนึ่ง ซึ่งหมายความว่า WorldScape ได้ก้าวข้ามลักษณะภาพ “เหมือนหรือไม่” และเข้าถึงตรรกะทางฟิสิกส์พื้นฐาน “ถูกต้องหรือไม่” ได้อย่างแท้จริง นี่ไม่เพียงเป็นการ超越คะแนน แต่ยังเป็นการก้าวกระโดดที่สำคัญของโมเดลโลกที่ผลิตในประเทศในด้านความสามารถในการดำเนินการในโลกจริง

ที่น่าชื่นชมยิ่งกว่านั้นคือ ขนาดพารามิเตอร์ของโมเดล WorldScape มีเพียง 10% ของโมเดลอื่นที่อยู่ในอันดับต้น แต่กลับแสดงความหนาแน่นของความฉลาดเชิงพื้นที่และความทันเวลาของการอนุมานที่ดีที่สุดในโลก ซึ่งให้การสนับสนุนทางเทคนิคที่แข็งแกร่งสำหรับการนำไปใช้ในด้าน edge ของ AI ทางกายภาพ

วิวัฒนาการอีกครั้งในเวลาไม่ถึงหนึ่งเดือน MoE เปิดตัว Scaling Law ของโมเดลโลก

ในช่วงไม่กี่ปีที่ผ่านมา สถาปัตยกรรม MoE ประสบความสำเร็จอย่างมากในโมเดลภาษาขนาดใหญ่ มันช่วยให้โมเดลสามารถดูดซับความรู้จำนวนมากได้อย่างมีประสิทธิภาพด้วยการเปิดใช้งานแบบ稀疏 (sparse activation) และเพิ่มความสามารถในการเข้าใจและสร้างภาษาขึ้นอย่างมากภายใต้งบประมาณการคำนวณที่เท่ากัน หลักการพื้นฐานของ MoE คือการแนะนำเครือข่ายย่อยเฉพาะทางหลายเครือข่ายและกลไกการควบคุมแบบไดนามิก โดยเปิดใช้งานเฉพาะผู้เชี่ยวชาญที่ตรงกับอินพุตมากที่สุดในการคำนวณไปข้างหน้าแต่ละครั้ง ทำให้สามารถเพิ่มขนาดพารามิเตอร์ของโมเดลขึ้นหลายระดับโดยไม่เพิ่มต้นทุนการคำนวณอย่างมีนัยสำคัญ

การขยาย MoE ไปยังโมเดลโลกมีความสำคัญเป็นพิเศษ: โมเดลโลกจำเป็นต้องสร้างแบบจำลองกฎทางฟิสิกส์ การรับรู้หลายรูปแบบ และการตัดสินใจเชิงโต้ตอบในฉากที่แตกต่างกันอย่างมาก ในขณะที่ MoE ช่วยให้ผู้เชี่ยวชาญต่าง ๆ รับผิดชอบพื้นที่ย่อยหรือรูปแบบงานที่แตกต่างกัน เช่น ไดนามิกของภาพ ปฏิสัมพันธ์การเคลื่อนที่ และการอนุมานการควบคุม และรวมเข้าด้วยกันอย่างปรับตัวผ่านการควบคุมแบบเกต ด้วยวิธีนี้ ในขณะที่รักษาความสามารถในการขยายขนาดพารามิเตอร์โดยรวม สามารถหลีกเลี่ยงการรบกวนระหว่างสาขาความรู้ที่แตกต่างกัน และให้กลไกโครงสร้างที่สำคัญสำหรับการจำลองโลกที่ทั่วไปและสอดคล้องกัน ในเวลาไม่ถึงหนึ่งเดือน WorldScape วิวัฒนาการจาก 0.1 เป็น 0.2 และขึ้นสู่อันดับหนึ่งอีกครั้ง โดยแรงขับเคลื่อนหลักมาจาก MoE โดยเฉพาะอย่างยิ่ง แสดงให้เห็นในสามด้าน:

การสรุปทั่วไปร่วมกันของผู้เชี่ยวชาญหลายคน: จากปฏิสัมพันธ์แบบครบวงจรไปจนถึงฐานการสรุปทั่วไปร่วมกันของผู้เชี่ยวชาญหลายคน

WorldScape 0.2 ก้าวข้ามขอบเขตของงานเดียว สร้างสถาปัตยกรรมแบบครบวงจรที่รองรับการเรียนรู้ร่วมกันของสัญญาณควบคุมจากหลายแหล่ง ในขณะที่สืบต่อความสามารถในการโต้ตอบเชิงพื้นที่พื้นฐาน มันรวมพฤติกรรมที่มีกายภาพที่ซับซ้อน เช่น การควบคุมแขนกลอย่างละเอียด เข้าไปในรูปแบบการสร้างทั่วไปของผู้เชี่ยวชาญหลายคน ทำให้เกิดการเสริมพลังและการปรับให้เหมาะสมร่วมกันระหว่างโหมดควบคุมที่แตกต่างกัน กรอบงานนี้มีความสามารถในการขยายโดยธรรมชาติ ให้เส้นทางเทคโนโลยีพื้นฐานที่สามารถเสียบปลั๊กและสรุปทั่วไปสำหรับการก้าวไปสู่ “ความฉลาดทั่วไปที่ขับเคลื่อนโดยโมเดลโลก”

การแสดงพื้นที่แบบครบวงจร: จากข้อจำกัดทางเรขาคณิตไปจนถึงการสร้างแบบจำลองเมตาสเปซที่รวมความรู้จากหลายแหล่ง

WorldScape 0.2 ก้าวข้ามความเชื่อก่อนหน้าทางเรขาคณิตเดียว จัดแนวการแสดงที่แตกต่างกันหลายมิติ เช่น โทโพโลยีเรขาคณิต ความเข้าใจเชิงความหมาย และกฎทางฟิสิกส์ ในโครงสร้าง และรวมความรู้ข้ามรูปแบบในเมตาสเปซโดยนัยแบบครบวงจร กลไกการเชื่อมโยงการแสดงนี้ช่วยให้โมเดลไม่เพียงรักษาความเสถียรของโทโพโลยีพื้นที่ในการโต้ตอบระยะยาว แต่ยังบรรลุความสอดคล้องเชิงความหมายและความสมเหตุสมผลทางฟิสิกส์ในเชิงลึก ยกระดับความน่าเชื่อถือของการสร้างโครงสร้างโลกจากรากฐาน

การเรียนรู้ต่อเนื่องหลายขั้นตอน: การเปลี่ยนกระบวนทัศน์จากความเที่ยงตรงของภาพไปจนถึงการปฏิบัติตามฟิสิกส์

WorldScape 0.2 ใช้กลยุทธ์การฝึกอบรมแบบค่อยเป็นค่อยไปหลายขั้นตอน ผ่านการฉีดความรู้โลกจำนวนมากและการเชื่อมโยงเชิงลึกของสัญญาณควบคุมจากแหล่งต่าง ๆ มันเสริมความสามารถของเนื้อหาที่สร้างขึ้นในการปฏิบัติตามกฎทางฟิสิกส์จริงอย่างมีนัยสำคัญ โมเดลไม่ได้จำกัดอยู่ที่ “ภาพลื่นไหล” แต่แสวงหา “การเคลื่อนไหวที่สอดคล้องกับตรรกะทางกลศาสตร์และสามัญสำนึกของฉาก” การคว้าอันดับหนึ่งในเกณฑ์มาตรฐานที่มีกายภาพระดับโลก WorldArena ทำให้เกิดการก้าวข้ามที่สำคัญจาก “ความสมจริงของภาพ” ไปสู่ “ความน่าเชื่อถือทางฟิสิกส์”

ผลการดำเนินงานที่โดดเด่นของ Manifold AI ในโมเดลการประเมินหลักหลายตัว และการยืนยันความสามารถในการขยายขนาดของโมเดล ทำให้เราเชื่อว่าช่วงเวลาของ GPT-3 สำหรับโมเดลโลกกำลังจะมาถึง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง