ความเคลื่อนไหวล่าสุดในวงการอุตสาหกรรมได้ชี้ให้เห็นแนวโน้มที่ชัดเจน: ปัญญาประดิษฐ์แบบ Embodied กำลังบอกลาการ “จำลองด้วยภาพ” แบบเดิม และก้าวเข้าสู่ยุคใหม่ของ “ความเข้าใจเชิงพื้นที่” อย่างเป็นทางการ
เมื่อเร็วๆ นี้ เกณฑ์มาตรฐานระดับโลกสำหรับโมเดลโลกแบบ Embodied WorldArena ได้อัปเดตอันดับล่าสุด FlowWAM โมเดลโลกแบบ Embodied ล่าสุดที่พัฒนาโดย Zhongke Diwuji สามารถครองอันดับหนึ่งในตาราง WorldArena ได้สำเร็จ ด้วยประสิทธิภาพที่โดดเด่นด้านความเข้าใจทางกายภาพและเชิงพื้นที่ แสดงให้เห็นถึงความแม่นยำและความสมจริงอันน่าทึ่งของโมเดลจีนในการจัดการปฏิสัมพันธ์แบบไดนามิก

ที่อยู่ตารางอันดับ: https://huggingface.co/spaces/WorldArena/WorldArena
การครองอันดับสูงสุดในครั้งนี้เป็นการยืนยันอีกครั้งถึงการเติบโตอย่างรวดเร็วของโมเดลโลกแบบ Embodied ของจีนในสาขานี้ และเน้นย้ำถึงแนวโน้มการเปลี่ยนแปลงของอุตสาหกรรมปัจจุบันไปสู่ความเข้าใจโลกแห่งความจริง
01 ผลงานหลัก: อันดับหนึ่งในสองมิติการประเมิน เสริมสร้างความเข้าใจเชิงพื้นที่
แตกต่างจากการประเมินในอดีตที่เน้น “ภาพที่สวยงาม” มิติการประเมินของ WorldArena นั้นครอบคลุมมากกว่า โดยประกอบด้วย 6 มิติหลัก และ 16 มิติย่อย ที่รวมอยู่
FlowWAM แสดงให้เห็นถึงความได้เปรียบอย่างท่วมท้นใน 2 มิติการประเมินหลัก ซึ่งบ่งชี้ว่ามันไม่ใช่แค่เครื่องสร้างวิดีโอ แต่ยังสามารถให้ความสามารถในการรับรู้เชิงพื้นที่ทางกายภาพที่แม่นยำแก่หุ่นยนต์
- อันดับหนึ่งด้าน Physics Adherence (การปฏิบัติตามกฎฟิสิกส์): ปฏิเสธ “การหลอกลวงทางสายตา” สร้างปฏิสัมพันธ์ที่สมจริงขึ้นมาใหม่ และบรรเทาปัญหา “ปฏิสัมพันธ์ปลอม” ที่พบบ่อยในโมเดลแบบ Generative ในด้าน Interaction Quality (คุณภาพการโต้ตอบ) การเคลื่อนไหวของหุ่นยนต์ที่สร้างขึ้นแสดงให้เห็นถึงความสมจริงสูงในด้านพฤติกรรมการสัมผัส การถ่ายเทแรง ฯลฯ โดยเฉพาะอย่างยิ่งในด้าน Trajectory Accuracy (ความแม่นยำของวิถี) การจัดตำแหน่งเชิงพื้นที่และเวลาของมันดีที่สุดในบรรดาโมเดลทั้งหมด ซึ่งหมายความว่ามันไม่เพียงแต่คาดการณ์ภาพเท่านั้น แต่ยังรวมถึงเส้นทางการทำงานที่แม่นยำซึ่งสอดคล้องกับกฎฟิสิกส์
- อันดับหนึ่งด้าน 3D Accuracy (ความแม่นยำ 3 มิติ): สร้างเรขาคณิตสามมิติขึ้นมาใหม่ ขจัดภาพลวงตาเชิงพื้นที่ และสร้างโครงสร้างเชิงพื้นที่จริงที่เหนือกว่าภาพที่ปรากฏ โดยเฉพาะอย่างยิ่งในด้าน Depth Accuracy (ความแม่นยำเชิงลึก) ความสอดคล้องทางเรขาคณิตที่สร้างขึ้นนั้นสอดคล้องกับฉากจริงอย่างมาก บรรเทาความคลุมเครือของมาตราส่วนภายใต้การมองเห็นแบบตาข้างเดียว และดีที่สุดในบรรดาโมเดลทั้งหมด ในด้าน Perspectivity (ความสมเหตุสมผลของเปอร์สเปคทีฟ) ไม่ว่าจะเป็นการปรับขนาดตามความลึกที่เปลี่ยนแปลง หรือความสัมพันธ์ของการบดบังแสงและเงาที่ซับซ้อน มันแสดงให้เห็นถึงตรรกะ 3 มิติที่แข็งแกร่งมาก
การเป็นอันดับหนึ่งในสองมิติหลักหมายความว่า FlowWAM สามารถทำงานได้แม่นยำและเชื่อถือได้มากขึ้นในงานโลกแห่งความจริงที่เกี่ยวข้องกับความเข้าใจทางกายภาพและการสร้างพื้นที่ใหม่
02 วิเคราะห์ FlowWAM: เส้นทางวิวัฒนาการของสมองแบบ Embodied
FlowWAM เป็นผลงานล่าสุดของ Zhongke Diwuji ในด้านปัญญาประดิษฐ์แบบ Embodied ย้อนดูเส้นทางทางเทคนิคของมัน เราจะเห็นแนวคิดหลักของทีมในการพัฒนาโมเดลขนาดใหญ่แบบ Embodied ได้อย่างชัดเจน:
- FAM-1 (โมเดลการทำงานแบบ Embodied ด้วยตัวอย่างน้อยมาก): โดยการแนะนำแผนที่ความร้อน 3 มิติสำหรับการฝึกอบรมล่วงหน้าขั้นที่สอง ช่วยลดการสูญเสียข้อมูลในความเข้าใจเชิงพื้นที่ของโมเดลได้อย่างมีประสิทธิภาพ ทำให้สามารถปรับแต่งอย่างรวดเร็วด้วยข้อมูลเพียงเล็กน้อย และทำให้หุ่นยนต์มีความสามารถในการทำงานแบบทั่วไปด้วยตัวอย่างน้อยในเบื้องต้น
- BridgeV2W (โมเดลโลกแบบ Embodied รุ่นแรก): โดยการแปลงพฤติกรรมของหุ่นยนต์ที่มีโครงสร้างต่างกันเป็นพิกเซลเชิงพื้นที่ ช่วยลดช่องว่างการแสดงผลระหว่าง “ลำดับการกระทำกับภาพที่เห็น” ได้อย่างมีประสิทธิภาพ ทำให้สามารถสร้างวิดีโออนาคตที่แม่นยำข้ามโครงสร้างได้ และทำให้หุ่นยนต์มีความสามารถในการทำงานที่เชื่อถือได้ข้ามโครงสร้างในเบื้องต้น
- ระยะ FlowWAM: ในฐานะโมเดลโลกแบบ Embodied รุ่นล่าสุดที่เปิดตัวโดย Zhongke Diwuji แม้ว่ารายละเอียดสถาปัตยกรรมเฉพาะจะยังอยู่ในขั้นตอนการรักษาความลับ แต่จากชื่อ “Flow” สามารถคาดเดาได้ว่าโมเดลนี้น่าจะมีความก้าวหน้าในด้านการไหลแบบไดนามิกของพื้นที่ทางกายภาพและการทำนายเชิงสาเหตุ และในที่สุดก็แสดงให้เห็นถึงข้อได้เปรียบที่ชัดเจนในด้านการปฏิบัติตามกฎฟิสิกส์และความแม่นยำ 3 มิติ
03 “ช่วงเวลารุ่งอรุณ” ของโมเดลโลกแบบ Embodied ของจีน
ในแถวหน้าของตารางอันดับ WorldArena นอกจาก Zhongke Diwuji แล้ว เรายังเห็นทีมและสถาบันวิจัยจากจีนจำนวนมาก สิ่งนี้สะท้อนให้เห็นถึงแนวโน้มที่สำคัญ: ในการแข่งขันปัญญาประดิษฐ์แบบ Embodied ทั่วโลก ทีมจีนกำลังผงาดขึ้นมาในสนามรบหลักของโมเดลโลกแบบ Embodied
เมื่อเทียบกับความได้เปรียบในระยะเริ่มต้นของยักษ์ใหญ่ต่างประเทศในการสร้างวิดีโอทั่วไป (เช่น Sora, Gen-3) เส้นทางปัญญาประดิษฐ์แบบ Embodied ในประเทศกำลังแสดงให้เห็นถึง “การโจมตีในแนวตั้ง” ที่แข็งแกร่งกว่า:
- จากการรับรู้สู่การรู้คิด: ไม่พอใจกับ “การมองเห็นแบบง่ายๆ” อีกต่อไป แต่แสวงหา “ความเข้าใจเชิงลึก”
- จากการจำลองสู่การใช้งานจริง: แปลงเป็นกำลังการผลิตจริงในสถานการณ์ต่างๆ เช่น อุตสาหกรรม โลจิสติกส์ และบริการ
เมื่อปัญญาประดิษฐ์แบบ Embodied ก้าวเข้าสู่ ปี 2026 ซึ่งเป็นปีสำคัญของการประยุกต์ใช้ โมเดลโลกแบบ Embodied ของจีนได้ยืนอยู่บนจุดสูงสุดของการพัฒนาเทคโนโลยีในสาขาปัญญาประดิษฐ์แบบ Embodied แล้ว
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31711
