ก้าวข้ามข้อจำกัดการรับรู้สามมิติ: Magic Core Technology ร่วมกับมหาวิทยาลัยถงจี เปิดตัวผลงาน 4 ชิ้น สู่โมเดลโลก 4 มิติ

3 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 11 views

ในการเดินทางสู่ปัญญาประดิษฐ์ทั่วไป (AGI) โมเดลโลกถูกมองว่าเป็นกุญแจสำคัญที่ทำให้เครื่องจักรเข้าใจกฎทางกายภาพและบรรลุความฉลาดเชิงพื้นที่ ความสามารถในการรับรู้สามมิติที่มีประสิทธิภาพ แข็งแกร่ง และแม่นยำ ถือเป็นข้อกำหนดเบื้องต้นหลักสำหรับการสร้างโมเดลโลก โดยทั่วไป โมเดลโลกที่สมบูรณ์ต้องมีความสามารถหลักสามประการ ได้แก่ การจดจำลำดับเวลาอวกาศที่ยาวนาน การแยกสาเหตุของพลศาสตร์ที่ซับซ้อน และการรับรู้รายละเอียดทางกายภาพที่มีความละเอียดสูง เมื่อเร็วๆ นี้ บริษัท KOKONI 3D ร่วมมือกับทีมวิจัยหลายแห่ง เช่น มหาวิทยาลัยถงจี (ทีมศาสตราจารย์จู หลานหยุน) ได้เผยแพร่ผลงานวิจัยสี่ชิ้นอย่างต่อเนื่อง โดยอิงจากสถาปัตยกรรม Visual Geometry Transformer (VGGT) ผลงานชุดนี้ได้ทำลายข้อจำกัดของการรับรู้สามมิติในด้านการประมวลผลแบบสตรีม ความทนทานต่อการเคลื่อนไหว และการรับรู้ที่มีความละเอียดสูงอย่างเป็นระบบ ทำให้เกิดการก้าวกระโดดจากการสร้างภาพพื้นฐานไปสู่โมเดลโลก 4D ที่มีความเที่ยงตรงสูง

หนึ่ง ข้อจำกัดหลักของการรับรู้สามมิติ: ปัญหาอุปสรรคเชิงระบบของลำดับเวลาที่ยาวนาน การเคลื่อนไหวที่รุนแรง และความแม่นยำสูง

ในสถานการณ์อุตสาหกรรมจริง ความท้าทายที่โมเดลการรับรู้สามมิติต้องเผชิญไม่ได้จำกัดอยู่แค่ความแม่นยำเท่านั้น เมื่อความละเอียดอินพุตเพิ่มขึ้น ฉากมีการเปลี่ยนแปลงแบบไดนามิก และรูปแบบข้อมูลขยายเป็นสตรีมวิดีโอ สถาปัตยกรรมดั้งเดิมจะต้อง承受แรงกดดันทั้งด้านกำลังประมวลผล อัลกอริทึม และทรัพยากรหน่วยความจำพร้อมกัน โดยเฉพาะอย่างยิ่ง มีปัญหาหลักสามประการ:

ความขัดแย้งระหว่างลำดับอนันต์กับหน่วยความจำจำกัด: วิธีการสร้างใหม่แบบสตรีมที่มีอยู่ในปัจจุบัน เมื่อประมวลผลอินพุตสตรีมวิดีโอที่ยาวนาน KV cache ของโมเดลจะเพิ่มขึ้นเป็นเส้นตรงตามจำนวนเฟรมอินพุต ทำให้เกิดหน่วยความจำล้นเมื่อเวลาผ่านไป ซึ่งหมายความว่า แม้ว่าความแม่นยำในการสร้างใหม่ของแต่ละเฟรมจะสูงเพียงใด โมเดลก็ไม่สามารถดำเนินการอนุมานอย่างต่อเนื่องสำหรับลำดับอนันต์ภายใต้หน่วยความจำจำกัดได้ จึงเกิดเป็น “คอขวดของความจำ” สำหรับการทำความเข้าใจวิดีโอระยะยาว
การพัวพันระหว่างการเคลื่อนไหวและความนิ่ง: ในฉากแบบไดนามิก วัตถุที่เคลื่อนที่จะรบกวนการประมาณตำแหน่งของกล้องอย่างรุนแรง โมเดลดั้งเดิมแยกแยะ “การเคลื่อนไหวของกล้องเอง” กับ “การเคลื่อนไหวอิสระของวัตถุในฉาก” ได้ยาก ทำให้สัญญาณการเคลื่อนไหวทั้งสองปนเปื้อนซึ่งกันและกัน ผลที่ตามมาคือ พื้นหลังที่นิ่งถูกบิดเบือนอย่างผิดพลาด โครงสร้างของวัตถุที่เคลื่อนไหวพังทลายหรือเกิด “ภาพซ้อน” และความสอดคล้องทางเรขาคณิตของผลลัพธ์การสร้างใหม่ทั้งหมดถูกทำลายอย่างสิ้นเชิง
ความขัดแย้งระหว่างกำลังประมวลผลและความแม่นยำ: ฟีเจอร์ที่มีความละเอียดสูงมีรายละเอียดทางกายภาพที่หลากหลาย (เช่น โครงสร้างบาง ขอบพื้นผิว) แต่การเพิ่มมิติของฟีเจอร์ทำให้จำนวน Token เพิ่มขึ้นอย่างมีนัยสำคัญ เมื่อโมเดลมุ่งมั่นที่จะจับภาพการแสดงทางเรขาคณิตที่ละเอียดยิ่งขึ้น การใช้หน่วยความจำก็จะเพิ่มขึ้นอย่างรวดเร็วจนล้น ทำให้โมเดลต้องเผชิญกับภาวะกลืนไม่เข้าคายไม่ออกระหว่างการ追求ความแม่นยำและข้อจำกัดด้านกำลังประมวลผล: หากลดความละเอียดของฟีเจอร์ รายละเอียดจะหายไป หากคงการแสดงความละเอียดสูงไว้ หน่วยความจำก็จะไม่เพียงพอ

ก้าวข้ามข้อจำกัดการรับรู้สามมิติ: Magic Core Technology ร่วมกับมหาวิทยาลัยถงจี เปิดตัวผลงาน 4 ชิ้น สู่โมเดลโลก 4 มิติ

สอง การปรับโครงสร้างความสามารถในการรับรู้สามมิติอย่างเป็นระบบ: ความจำระยะยาว การแยกสาเหตุ และการรับรู้ที่มีความเที่ยงตรงสูง

เพื่อแก้ไขปัญหาอุปสรรคทางเทคนิคทั้งสามประการข้างต้น บริษัท KOKONI 3D ร่วมกับมหาวิทยาลัยถงจี (ทีมศาสตราจารย์จู หลานหยุน) และสถาบันอื่นๆ ได้เสนอ นวัตกรรมเชิงระบบสามประการโดยอิงจากสถาปัตยกรรม VGGT ได้แก่ ความจำเชิงพื้นที่-เวลาระยะยาว การแยกพลศาสตร์ และการรับรู้ที่มีความเที่ยงตรงสูง ซึ่งเจาะลึกปัญหาหลักของการรับรู้สามมิติจากสามมิติ ได้แก่ ลำดับ การเคลื่อนไหว และความละเอียด เพื่อสนับสนุนการสร้างโมเดลโลกแห่งความฉลาดเชิงพื้นที่อย่างครอบคลุม

การสร้างลำดับสตรีมใหม่: มอบ “ความจำเชิงพื้นที่-เวลาระยะยาว” ให้กับโมเดลโลก

ลิงก์论文: https://arxiv.org/abs/2604.15237

โมเดลโลกที่ใช้งานได้จริงไม่สามารถมีเพียง “การรับรู้ชั่วขณะ” เท่านั้น แต่ต้องสามารถประมวลผลข้อมูลสตรีมอนันต์อย่างต่อเนื่องและรักษาความจำระยะยาวได้เหมือนสิ่งมีชีวิต อย่างไรก็ตาม เมื่อประมวลผลสตรีมวิดีโอที่ยาวนาน KV Cache ของเครือข่ายจะเพิ่มขึ้นเป็นเส้นตรงตามจำนวนเฟรม ทำให้หน่วยความจำหมดอย่างรวดเร็ว เพื่อแก้ปัญหานี้ ทีม KOKONI ได้เสนอ StreamCacheVGGT ซึ่งใช้กลไกการจัดการหน่วยความจำที่สร้างสรรค์ เพื่อให้สามารถสร้างใหม่ที่มีความเที่ยงตรงสูงสำหรับลำดับอนันต์ภายใต้ค่าใช้จ่ายหน่วยความจำคงที่ O(1)

รูป: สถาปัตยกรรมการสร้างสตรีมระยะยาวภายใต้หน่วยความจำคงที่ O(1) ของ StreamCacheVGGT

วิธีนี้ไม่ใช่แค่การบีบอัดหรือตัดแคชอย่างง่าย แต่แนะนำกลยุทธ์ “ความจำแบบเลือกสรร” โดยใช้คะแนนความสอดคล้องข้ามเลเยอร์ (CLCES) โมเดลสามารถติดตามความเสถียรของ Token ในเลเยอร์ Transformer ต่างๆ เพื่อจัดลำดับความสำคัญของฟีเจอร์ที่มีความหมายทางเรขาคณิตในระยะยาว ในขณะเดียวกันก็ระงับสัญญาณรบกวนระยะสั้น

รูป: คะแนนความสอดคล้องข้ามเลเยอร์

在此基础上 กลไกการบีบอัดแคชแบบผสมผสานได้นำเสนอกลยุทธ์ “การคัดกรองสามระดับ” สำหรับข้อมูลที่มีมูลค่าปานกลาง จะถูกบีบอัดและจัดเก็บผ่านการรวม归属แบบไดนามิก แทนที่จะตัดทิ้งอย่างรุนแรง กลไกนี้ช่วยรักษาโครงสร้างพื้นฐานความถี่ต่ำได้อย่างมีประสิทธิภาพ ป้องกันไม่ให้โมเดลโลกเกิดการพังทลายทางเรขาคณิตในงานระยะไกล

รูป: การบีบอัดแคชแบบผสมผสาน

ในการทดสอบลำดับยาว KITTI ที่มีมากกว่า 500 เฟรม StreamCacheVGGT ภายใต้ข้อจำกัดหน่วยความจำคงที่ O(1) ที่เข้มงวด สามารถลดข้อผิดพลาดเชิงลึก Abs Rel เหลือ 0.123 เมื่อเทียบกับวิธีการ “ตัดทิ้งล้วนๆ” แบบดั้งเดิม ความสมบูรณ์ของพื้นผิวและรายละเอียดเฉพาะจุดของพอยต์คลาวด์ที่สร้างใหม่ได้รับการปรับปรุงอย่างมีนัยสำคัญ และในผลลัพธ์การแสดงภาพหลายรายการ StreamCacheVGGT ยังแสดงผลการสร้างใหม่ที่สมบูรณ์ ชัดเจน และมีสัญญาณรบกวนน้อยกว่าวิธีการที่มีอยู่

การสร้าง 4D แบบไดนามิก: การแยกกฎพลศาสตร์ ทำความเข้าใจ “สาเหตุ” ของโลกที่เคลื่อนไหว

ลิงก์论文: https://arxiv.org/pdf/2604.09366

ลิงก์论文: https://arxiv.org/pdf/2605.12027

โลกแห่งความจริงคือการผสมผสานระหว่างการเคลื่อนไหวและความนิ่ง การแยก “การเคลื่อนไหวของตนเอง” ออกจาก “การเคลื่อนไหวของวัตถุ” เป็นกุญแจสำคัญที่โมเดลโลกใช้ทำความเข้าใจสาเหตุทางกายภาพ KOKONI ได้ปรับปรุงความเสถียรในการสร้างใหม่ในฉากแบบไดนามิกอย่างมีนัยสำคัญ โดยเจาะลึกจากสองมุมมอง: การแยกแบบค่อยเป็นค่อยไปและการสร้างแบบจำลองความไม่แน่นอน

ในด้านการสร้างแบบจำลองการเคลื่อนไหว ทีมงานได้เสนอกลยุทธ์การแยกแบบค่อยเป็นค่อยไป โดยใช้เส้นทางการสร้างแบบจำลอง “ทำให้กล้องคงที่ก่อน จากนั้นจึงกู้คืนการเคลื่อนไหว” เพื่อแยกการประมาณตำแหน่งกล้องออกจากการสร้างเรขาคณิตของฉากทีละขั้น ด้วยกลไกมาสก์แบบไดนามิก โมเดลสามารถป้องกันการรบกวนของวัตถุที่เคลื่อนไหวต่อการประมาณตำแหน่งในระยะเริ่มต้น สร้างระบบอ้างอิงที่เสถียรยิ่งขึ้น จากนั้นจึงสร้างแบบจำลองพื้นที่ไดนามิกอย่างละเอียด ทำให้เกิดผลการสร้างที่แยกการเคลื่อนไหวและความนิ่ง

เพื่อรับมือกับการรบกวนของสัญญาณรบกวนในสภาพแวดล้อมภาพที่ซับซ้อน โมเดลได้แนะนำวิธีการสร้างแบบจำลองตามความไม่แน่นอนเพื่อแยกโครงสร้างการฉายภาพย่อย และปรับน้ำหนักของความสนใจแบบหลายหัวอย่างปรับตัวได้ ทำให้โมเดลสามารถระบุสัญญาณการเคลื่อนไหวที่เชื่อถือได้มากขึ้นในฉากที่มีข้อมูลปะปนกัน ดังนั้นจึงยังคงรักษาเอาต์พุตโครงสร้างทางเรขาคณิตที่เสถียรภายใต้การเปลี่ยนแปลงแบบไดนามิกที่รุนแรง

ผลงานทั้งสองชิ้นมีประสิทธิภาพดีเยี่ยมในชุดข้อมูลสาธารณะหลายชุด ในเกณฑ์มาตรฐานเรขาคณิตไดนามิก DyCheck ตัวบ่งชี้ Accuracy Mean เพิ่มขึ้น 15.4% การวิเคราะห์เชิงคุณภาพยังแสดงให้เห็นว่าวิธีนี้สามารถระงับสัญญาณรบกวนแบบไดนามิก กู้คืนโครงสร้างวัตถุที่สมบูรณ์และแม่นยำ และกำจัดปรากฏการณ์ “ภาพซ้อน” ที่พบบ่อยในฉากไดนามิก

การรับรู้ที่มีความเที่ยงตรงสูง: ฟีเจอร์ละเอียดขับเคลื่อนการสร้างเรขาคณิตความละเอียดสูง

ลิงก์论文: https://arxiv.org/pdf/2603.27222

ระดับความเชี่ยวชาญในรายละเอียดทางเรขาคณิตของสภาพแวดล้อมเป็นปัจจัยสำคัญที่ส่งผลต่อความแม่นยำในการทำนายของโมเดลโลก ด้วยเหตุนี้ ทีมวิจัย KOKONI จึงเสนอ HD-VGGT เพื่อแก้ปัญหาสมดุลระหว่างกำลังประมวลผลและความแม่นยำเมื่อโมเดล feed-forward ประมวลผลอินพุตความละเอียดสูง:

การฉีดรายละเอียดแบบลำดับชั้น: ใช้สถาปัตยกรรมสองสาขา โดยคงความสอดคล้องโดยรวมที่ความละเอียดต่ำไว้ จากนั้นผ่านการสุ่มตัวอย่างฟีเจอร์ที่เรียนรู้ได้ จะฉีดรายละเอียดทางกายภาพความถี่สูงจากภาพความละเอียดสูง (เช่น เสาไฟบาง พื้นผิวผนัง) ลงในฟีเจอร์เรขาคณิตอย่างแม่นยำ

การปรับฟีเจอร์: สำหรับพื้นที่ที่มีความคลุมเครือทางสายตา เช่น การสะท้อนแสงแบบ specular หรือพื้นผิวที่มี纹理น้อย HD-VGGT จะแนะนำกลไกการปรับฟีเจอร์เพื่อระบุและระงับ Token ฟีเจอร์ที่ไม่เสถียรโดยอัตโนมัติ ทำให้โมเดลสามารถส่งออกพอยต์คลาวด์ความแม่นยำสูงที่มีขอบเขตเรียบร้อยและคมชัดภายใต้สภาพแสงที่ซับซ้อน

ในด้านผลการทดลอง HD-VGGT ได้ผลลัพธ์ที่นำหน้าในชุดข้อมูลสาธารณะหลายชุด โดยเฉพาะในชุดข้อมูล RealEstate10K AUC@30 สูงถึง 87.01% ซึ่งทำลายสถิติของชุดข้อมูลนี้ นอกจากนี้ ผลลัพธ์เชิงคุณภาพหลายรายการในงานประมาณค่าความลึกยังแสดงให้เห็นว่า HD-VGGT สามารถ还原โครงสร้างบาง เช่น เสาไฟและขาเก้าอี้ได้อย่างชัดเจน แก้ปัญหาการทำให้เรียบเกินไปและภาพซ้อนของโมเดลดั้งเดิมเมื่อรับอินพุตความละเอียดสูง

หัวหน้าทีมวิจัยของ KOKONI กล่าวว่า: “เราไม่ได้แค่ทำการสร้าง 3D/4D เท่านั้น แต่เรากำลังสร้าง ‘โปรโตคอลพื้นฐานเชิงพื้นที่’ ที่แข็งแกร่งสำหรับการมองเห็นของเครื่องจักร ผ่านเทคโนโลยีซีรีส์ VGGT เราได้มอบสัมผัสที่ละเอียด (HD) การมองเห็นเชิงลึกแบบไดนามิก (4D) และความจำที่ยาวนาน (Streaming) ให้กับโมเดล ซึ่งเป็นเส้นทางที่จำเป็นสู่โมเดลโลกระดับสูงที่มีสามัญสำนึกทางกายภาพ”

นอกจากนี้ ทีมวิจัยยังมีความก้าวหน้าที่สำคัญในโมเดลฐาน 4D ซึ่งพิสูจน์ว่าการสร้างแบบจำลองฉาก 3D/4D เป็นไปตาม Scaling Law ด้วยการขยายขนาดข้อมูลการฝึกเป็นล้านระดับขึ้นไป และเพิ่มจำนวนพารามิเตอร์ของโมเดลเป็นหมื่นล้านระดับ เราจึงสามารถลดข้อผิดพลาดในการสร้างใหม่ได้อย่างมีนัยสำคัญ และได้รับความสามารถในการสร้างแบบจำลองเชิงพื้นที่ที่เสถียรและสอดคล้องในระยะยาว

รูป: ผลการทดลองแสดงให้เห็นว่า เมื่อขนาดข้อมูลการฝึกเพิ่มขึ้น (กราฟซ้าย) และจำนวนพารามิเตอร์ของโมเดลขยายใหญ่ขึ้น (กราฟขวา) ความแม่นยำในการทำนายของโมเดลก็เพิ่มขึ้นอย่างต่อเนื่อง โดยแสดงเป็นค่าข้อผิดพลาดที่ลดลงทีละน้อย

ด้วยการสะสมทางเทคนิคที่แข็งแกร่ง KOKONI ได้รับการยอมรับและการสนับสนุนเพิ่มเติมในตลาดทุน รอบการระดมทุนนี้ได้รับการลงทุนร่วมจากหุ้น富瀚微, 联融志道 (กองทุนภายใต้联想控股) และ浙创投 ในขณะที่ผู้ถือหุ้นเดิมก็เพิ่มการลงทุนเช่นกัน เป็นที่ทราบกันว่า KOKONI จะเพิ่มการลงทุนในเทคโนโลยีความฉลาดเชิงพื้นที่และโมเดลโลกในอนาคต โดยมุ่งเน้นการผลักดันการวิจัยและพัฒนาและการนำไปใช้ในเชิงพาณิชย์ของความสามารถหลัก เช่น การสร้างสามมิติ/สี่มิติ ความเข้าใจเชิงพื้นที่ การอนุมานวิดีโอระยะยาว และการสร้างแบบจำลองเชิงโต้ตอบ เป้าหมายของบริษัทคือการทำให้ AI เข้าใจ สร้างเนื้อหา และมีความสามารถในการโต้ตอบกับโลกทางกายภาพอย่างแท้จริง เพื่อให้การสนับสนุนทางเทคนิคที่สำคัญสำหรับสถานการณ์อุตสาหกรรมต่างๆ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง