ทีมจีนทำลายกำแพงเทคโนโลยีหลักของปัญญาประดิษฐ์เชิงพื้นที่: InSpatio-WorldFM เปิดตัวโมเดลโลก 3 มิติแบบเรียลไทม์แบบโอเพนซอร์ส เปิดศักราชใหม่แห่งการปฏิสัมพันธ์ทางกายภาพของ AI

2026年3月6日 pm4:40 • โครงการโอเพนซอร์ส • 214 views

ทิศทางล้ำสมัยที่สุดในวงการ AI “โมเดลโลก” กำลังประสบกับการเปลี่ยนแปลงอย่างลึกซึ้ง

บนอินเทอร์เน็ต เอเจนต์อัจฉริยะเสมือนสามารถเคลื่อนไหวไปมาในโลกดิจิทัลได้อย่างคล่องแคล่ว แต่ในความเป็นจริง หุ่นยนต์ที่มีร่างกายยังคงติดอยู่ในสนามทดลองและยากที่จะรับมือกับพื้นที่ทางกายภาพที่ซับซ้อน ช่องว่างที่ข้ามผ่านโลกเสมือนและความจริงนี้ มีแก่นกลางอยู่ที่การขาดหายไปของการรับรู้ความฉลาดเชิงพื้นที่ของเอเจนต์

ในปี 2024 สนามแข่งสำคัญอย่างความฉลาดเชิงพื้นที่นี้ได้ถูกจุดประกายอย่างเป็นทางการ และกลายเป็นจุดสนใจของการแข่งขันด้านเทคโนโลยีทั่วโลก ในนั้น การสร้างฉาก 3 มิติที่มีความสม่ำเสมอถาวร ทำให้เอเจนต์ไม่เพียงแต่ “มองเห็น” พื้นที่ แต่ยังสามารถเข้าใจและโต้ตอบกับโลกทางกายภาพได้อย่างแท้จริงแบบเรียลไทม์ ถูกมองว่าเป็นความท้าทายทางเทคนิคหลัก

ปัจจุบัน ยอดเขาสำคัญของความฉลาดเชิงพื้นที่นี้กำลังถูกทีมภายในประเทศพิชิตและผลักดันเข้าสู่ภาคอุตสาหกรรมอย่างลึกซึ้ง เมื่อเร็วๆ นี้ InSpatio ได้เปิดตัวและปล่อยโอเพนซอร์สโมเดลการสร้างเฟรมแบบเรียลไทม์ InSpatio-WorldFM ซึ่งเป็นโมเดลโลก 3 มิติแบบโต้ตอบได้แบบเรียลไทม์ สิ่งนี้เป็นเครื่องหมายว่าทีมจีนได้บรรลุความก้าวหน้าพื้นฐานในเทคโนโลยีพื้นฐานของความฉลาดเชิงพื้นที่ และกำลังผลักดัน AI จากหน้าจอเสมือนไปสู่ความเป็นจริงทางกายภาพด้วยท่าทีที่เปิดกว้าง

ทีมจีนทำลายกำแพงเทคโนโลยีหลักของปัญญาประดิษฐ์เชิงพื้นที่: InSpatio-WorldFM เปิดตัวโมเดลโลก 3 มิติแบบเรียลไทม์แบบโอเพนซอร์ส เปิดศักราชใหม่แห่งการปฏิสัมพันธ์ทางกายภาพของ AI

หน้าแรกโปรเจกต์: https://inspatio.github.io/worldfm/
GitHub ของโมเดล: https://github.com/inspatio/worldfm
ทดลองใช้งานออนไลน์: http://www.inspatio.com/worldfm

การเปิดตัว InSpatio-WorldFM ไม่เพียงแต่เป็นการตอบสนองอย่างรวดเร็วต่อแนวทางเทคโนโลยีระดับโลก แต่ยังเป็นการคิดอย่างอิสระของทีมจีนในสาขาความฉลาดเชิงพื้นที่ นำโดยศาสตราจารย์ ดร.จาง กั๋วเฟิง จากห้องปฏิบัติการหลักแห่งชาติ CAD&CG มหาวิทยาลัยเจ้อเจียง ทีม InSpatio ด้วยประสบการณ์สะสมกว่า 20 ปีในสาขาการมองเห็น 3 มิติและการคำนวณเชิงพื้นที่ ได้ก้าวข้ามเส้นทางดั้งเดิมที่พึ่งพา “ข้อมูล 3 มิติดั้งเดิม” ที่หายาก ผ่านกลยุทธ์ “การเพิ่มมิติข้อมูล” และ “ข้อจำกัดทางเรขาคณิต” ที่คิดค้นขึ้นเอง ประสบความสำเร็จในการปลุกความรู้เชิงพื้นที่ 3 มิติที่แฝงอยู่ในข้อมูลวิดีโอ 2 มิติปริมาณมหาศาลบนอินเทอร์เน็ต

เส้นทางเทคโนโลยีนี้แก้ไขปัญหาคอขวดที่อุตสาหกรรมเผชิญมายาวนานอย่างแม่นยำ นั่นคือ “การขาดแคลนข้อมูล 3 มิติคุณภาพสูงในระดับใหญ่” แปลงข้อมูล 2 มิติที่มีอยู่มหาศาลให้เป็นพลังระดับสูงที่ขับเคลื่อนโมเดลโลก 3 มิติได้อย่างมีประสิทธิภาพ

InSpatio-WorldFM สามารถให้เหตุผลเชิงพื้นที่แบบหลายมุมมองที่สอดคล้องกันได้อย่างมีประสิทธิภาพ และสนับสนุนการสำรวจแบบโต้ตอบแบบเรียลไทม์

หลังจากเปิดตัวโปรเจกต์ ได้รับความสนใจอย่างกว้างขวางอย่างรวดเร็ว การเข้าชมการสาธิตออนไลน์เพิ่มขึ้นอย่างรวดเร็วในเวลาอันสั้น

ด้วยกลไกโมเดล 3 มิติ โลกเสมือนที่สร้างขึ้นมีความสม่ำเสมอสูง ฉากมีความเสถียรมากในด้านเรขาคณิตเชิงพื้นที่ แสงสว่าง และกฎทางกายภาพ การให้เหตุผลระยะเวลาไม่จำกัดจะไม่เกิดการลืมหรือเสื่อมลง

ที่น่าสังเกตคือ เมื่อเทียบกับโมเดลโลกก่อนหน้านี้ InSpatio-WorldFM มีความต้องการพลังการคำนวณลดลงอย่างเห็นได้ชัด เป้าหมายคือการให้เหตุผลเชิงพื้นที่แบบเรียลไทม์บน GPU ระดับผู้บริโภค ขยายความฉลาดเชิงพื้นที่จากศูนย์ข้อมูลไปยังอุปกรณ์ขอบเขต (Edge) — แม้แต่บน GPU RTX 4090 เพียงตัวเดียวก็สามารถให้เหตุผลแบบเรียลไทม์ได้ ซึ่งขยายจินตนาการของการประยุกต์ใช้เชิงพาณิชย์ได้อย่างมาก

นอกจากนี้ พื้นที่ที่สร้างขึ้นสนับสนุนการแก้ไขแบบสม่ำเสมอทั้งภาพ — ไม่ใช่การแก้ไขแบบกระจายในพื้นที่เฉพาะอีกต่อไป แต่เป็นการปรับเปลี่ยนแบบรวมข้ามมุมมองและข้ามพื้นที่ โดยคงความสอดคล้องทั่วโลกของโครงสร้างเรขาคณิต ความสัมพันธ์ของแสง คุณสมบัติวัสดุ และตรรกะทางกายภาพ

ตัวอย่างเช่น จากแบบนี้:

เป็นแบบนี้:

ไม่ว่าจะเป็นการเปลี่ยนสไตล์ทั้งภาพ การปรับโครงสร้างเค้าโครงพื้นที่ หรือการปรับแสงและวัสดุ ระบบสามารถรับประกันได้ว่าการเปลี่ยนแปลงจะสอดคล้องกันในทุกมุมมองและผลลัพธ์ที่สร้างขึ้นในภายหลัง หลีกเลี่ยง “ความขัดแย้ง” หรือ “การผิดตำแหน่งมุมมอง” กล่าวอีกนัยหนึ่ง มันไม่ได้แก้ไขภาพเพียงเฟรมเดียว แต่แก้ไขตัวตนของโลกสามมิติที่ควบคุมได้ เชื่อมโยงกัน และมีข้อจำกัดทางกายภาพ

เส้นทางเทคโนโลยี: บุกเบิกมิติ สร้าง 3 มิติดั้งเดิม

ปัจจุบัน โมเดลโลกหลักส่วนใหญ่ (เช่น Genie ของกูเกิล โมเดลของ Runway ฯลฯ) โดยพื้นฐานแล้วเป็นโมเดลสร้างวิดีโอที่ทำนายพิกเซล 2 มิติ สถานะเชิงพื้นที่ในแต่ละช่วงเวลาถูกแสดงออกด้วยภาพระนาบ แต่โลกทางกายภาพเป็น 3 มิติ หาก AI จะโต้ตอบกับโลกทางกายภาพ การแสดงออกสถานะเชิงพื้นที่ของมันก็ควรเป็น 3 มิติเช่นกัน

เส้นทางเทคโนโลยีของ InSpatio กลับสู่ “หลักการแรก” ไม่ยึดติดกับการสร้างภาพทีละพิกเซลอีกต่อไป แต่มุ่งมั่นสร้างโลก 3 มิติดั้งเดิม ซึ่งหมายถึงการทำให้โมเดลเรียนรู้การสร้างแบบจำลองเชิงนามธรรมจากข้อมูลเซ็นเซอร์โลกจริง ทำนายและให้เหตุผลในพื้นที่การแสดงแทนระดับสูงกว่า

เพื่อจุดประสงค์นี้ ทีม InSpatio ไม่ได้เรียนรู้ความรู้ทางกายภาพตั้งแต่เริ่มต้น แต่ผ่านการควบคุมที่แม่นยำ ดึงเอาความรู้เรขาคณิตสามมิติและกฎทางกายภาพที่แฝงอยู่ในข้อมูลวิดีโอ 2 มิติปริมาณมหาศาลออกมา ในโลก 3 มิติที่สร้างขึ้น เอเจนต์สามารถเคลื่อนไหวได้อย่างอิสระ โดยไม่ต้องกังวลว่าจะเกิดรายละเอียดที่ไม่น่าเชื่อถือ

จากเส้นทางเทคโนโลยี 3 มิติที่เป็นเอกลักษณ์ โมเดลนี้สามารถแก้ไขจุดเจ็บปวดของเครื่องมือ AIGC ในปัจจุบันที่ “มีความสุ่มสูง ควบคุมได้ยาก” ได้อย่างมีประสิทธิภาพ ไม่เพียงแต่สนับสนุนการเดินสำรวจอย่างอิสระในฉากที่สร้างแบบเรียลไทม์ แต่ยังสามารถถ่ายโอนวัตถุเบื้องหน้าที่เคลื่อนไหวในวิดีโอไปยังสภาพแวดล้อมพื้นที่อื่นได้อย่างราบรื่น และรับประกันอย่างเข้มงวดว่าวัตถุเบื้องหน้าที่ถ่ายโอนแล้วจะมีความสอดคล้องสูงกับพื้นหลังใหม่ในด้านเรขาคณิต แสงสว่าง และกฎทางกายภาพ บรรลุ “สร้างครั้งเดียว ควบคุมได้แม่นยำ”

จะเห็นได้ว่าโมเดลนี้แสดงความสามารถในการล็อกวัตถุเบื้องหน้าในระดับพิกเซลและความเสถียรที่ยอดเยี่ยมในการเปลี่ยนพื้นหลังและการควบคุมเลนส์ แม้ว่าพื้นหลังจะเปลี่ยนไปโดยสิ้นเชิง แสงสว่างปรับตัวตามธรรมชาติ แต่แสงสว่างและโครงสร้างรายละเอียดของวัตถุหลักเบื้องหน้าสามารถรักษาความสอดคล้องสูงกับพื้นหลังใหม่ได้

ทีม InSpatio เปิดเผยว่าการฝึกโมเดลโลกของพวกเขาใช้พลังการคำนวณเพียงระดับร้อยการ์ด ซึ่งต่ำกว่าพลังการคำนวณที่จำเป็นสำหรับการฝึกโมเดลวิดีโอหลักในปัจจุบันอย่างมาก แก่นกลางอยู่ที่การสร้างโครงกระดูก 3 มิติของเครื่องยนต์ทางกายภาพโดยตรงในระดับพื้นฐาน — การคำนวณสนามทางกายภาพ มีประสิทธิภาพมากกว่าการแจงนับพิกเซล

โดยเฉพาะอย่างยิ่ง InSpatio-WorldFM ที่ปล่อยโอเพนซอร์สในครั้งนี้มีคุณสมบัติหลักสามประการ:

ก้าวข้ามข้อจำกัด 2 มิติ: มอบความสม่ำเสมอให้ความฉลาดเชิงพื้นที่

เมื่อใช้เครื่องมือสร้างวิดีโอ AI ที่มีอยู่ มักจะพบปัญหาวัตถุบิดเบี้ยวหรือพื้นหลังบิดเบี้ยวเนื่องจากการหมุนเลนส์ นี่เป็นเพราะโมเดลที่ใช้พื้นฐาน 2 มิติทำนายเพียงสองมิติในระดับพิกเซล และไม่เข้าใจโลกทางกายภาพที่แท้จริง

InSpatio-WorldFM ละทิ้งเส้นทางการเรียนรู้แบบ 2 มิติล้วน ใช้ “ความสอดคล้องหลายมุมมองสามมิติ” เป็นกลไกข้อจำกัดหลักของการสร้างเนื้อหา ไม่ว่าจะในการคำนวณล่วงหน้าหรือการให้เหตุผลแบบเรียลไทม์ โมเดลถูกบังคับให้เข้าใจและรักษาความเชื่อมโยงของโครงสร้างพื้นที่ 3 มิติ

ดังนั้น ในโลกที่สร้างโดย InSpatio-WorldFM วัตถุมีปริมาตรทางกายภาพที่แท้จริง และจะไม่เกิดการเลื่อนหรือบิดเบี้ยวตามเวลา มันมอบคุณภาพที่หายากที่สุดของความฉลาดเชิงพื้นที่ — ความสม่ำเสมอถาวรในระดับกายภาพ ไม่ว่าจะสำรวจในพื้นที่เสมือนนี้นานแค่ไหน ฉากจะไม่พังหรือบิดเบี้ยว นี่เป็นคุณลักษณะสำคัญสำหรับการผลิตภาพยนตร์ การพัฒนาเกม และการฝึกฝนความฉลาดที่มีร่างกาย พิสูจน์ว่าโมเดลไม่ได้ “วาดภาพ” แต่กำลัง “คำนวณสนามทางกายภาพ” โลกเสมือนที่สร้างขึ้นนี้สามารถใช้เป็นสนามฝึกเสมือนนับหมื่นที่หุ่นยนต์ในอนาคตต้องการได้โดยตรง

ก้าวข้ามคอขวดความจำเชิงกาล-อวกาศ: สถาปัตยกรรมผสมระหว่างจุดยึดชัดแจ้งและความจำโดยนัย

โมเดลวิดีโอ 2 มิติแบบดั้งเดิมมักเผชิญกับความท้าทาย “การลืมลำดับยาว” และ “การพังทลายของเรขาคณิตเชิงพื้นที่” เมื่อประมวลผลลำดับยาว InSpatio-WorldFM ผ่านกลไก 3 มิติที่เป็นนวัตกรรม ก้าวข้ามข้อจำกัดเหล่านี้ตั้งแต่พื้นฐาน

เฟรมเวิร์กน้ำหนักเบาที่มีประสิทธิภาพสูง

โมเดลใช้สถาปัตยกรรมแบบเฟรม ร่วมกับเทคโนโลยีการกลั่นโมเดลและการเพิ่มประสิทธิภาพการให้เหตุผล บีบอัดความต้องการการคำนวณเชิงพื้นที่ขนาดใหญ่ได้อย่างเห็นได้ชัด เป้าหมายคือการให้เหตุผลเชิงพื้นที่แบบเรียลไทม์บน GPU ระดับผู้บริโภค ซึ่งจะทำให้ความฉลาดเชิงพื้นที่สามารถย้ายจากศูนย์ข้อมูลไปยังอุปกรณ์ขอบเขตต่างๆ เช่น หุ่นยนต์และแว่นตา XR บรรลุการโต้ตอบแบบเรียลไทม์ที่มีความหน่วงต่ำอย่างแท้จริง

การสาธิตการสร้างแบบเรียลไทม์ที่มีประสิทธิภาพสูงและความหน่วงต่ำ

“จุดยึดชัดแจ้ง + ความจำโดยนัย” บรรลุความจำเชิงพื้นที่ที่เสถียร

ความท้าทายหลักของความฉลาดเชิงพื้นที่อยู่ที่ “ความจำ” หากหุ่นยนต์ลืมเค้าโครงสภาพแวดล้อมในชั่วขณะที่หันหัว การวางแผนระดับสูงและการนำทางอัตโนมัติก็ไม่สามารถเกิดขึ้นได้ เพื่อจุดประสงค์นี้ InSpatio-WorldFM ได้ออกแบบสถาปัตยกรรมผสมแบบ “จุดยึดชัดแจ้ง + ความจำโดยนัย”

จุดยึดชัดแจ้ง: ใช้เทคโนโลยีการสร้างใหม่แบบฟีดฟอร์เวิร์ดเพื่อสร้างจุดยึดพื้นที่ทางกายภาพ 3 มิติที่มั่นคง ให้การสนับสนุนโครงสร้างเรขาคณิตที่แม่นยำแก่โมเดล
ความจำโดยนัย: ใช้เฟรมอ้างอิงเป็นความจำโดยนัยภายในโมเดลการสร้าง รักษาข้อมูลฉากอย่างต่อเนื่อง

แผนภาพการทำงานของสถาปัตยกรรม “จุดยึดชัดแจ้ง+ความจำโดยนัย”

การออกแบบนี้สร้าง “ระบบพิกัดสามมิติ” ให้กับ AI รับประกันว่าไม่ว่ามุมมองจะเปลี่ยนไปอย่างไร เนื้อหาฉากที่สร้างขึ้นจะไม่เกิดการเลื่อน มันทำให้ AI มีทั้งความสามารถในการให้เหตุผลที่ยืดหยุ่นเหมือนเซลล์ประสาท และมีความจำ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง