Ant Group Lingbo เปิดตัว LingBot-Map: ฝ่าขีดจำกัดการสร้างภาพ 3D แบบสตรีมมิ่ง บรรลุการสร้างแบบจำลองสามมิติแบบเรียลไทม์จากวิดีโอหมื่นเฟรม

7 hours ago • โครงการโอเพนซอร์ส • 17 views

เมื่อเดือนมกราคมปีนี้ Ant Lingbo ได้เปิดตัวโมเดลใหญ่ 4 รุ่น ได้แก่ LingBot-Depth (โมเดลรับรู้พื้นที่ความแม่นยำสูง), LingBot-VLA และ LingBot-VA (โมเดลใหญ่เชิงรูปธรรม) และ LingBot-World (โมเดลโลก) โมเดลเหล่านี้มีหน้าที่ประมาณความลึกจากภาพ, ทำความเข้าใจและจำลองสภาพแวดล้อม, รวมถึงควบคุมการตัดสินใจและการเคลื่อนไหวของหุ่นยนต์ ครอบคลุมทั้งกระบวนการรับรู้, การทำความเข้าใจ และการลงมือปฏิบัติ

อย่างไรก็ตาม ยังขาดองค์ประกอบสำคัญอยู่หนึ่งประการ: วิธีการสร้างแบบจำลองพื้นที่สามมิติที่เสถียรจากข้อมูลการรับรู้ต่อเนื่องแบบเรียลไทม์ เพื่อเป็นพื้นฐานที่เชื่อถือได้ให้กับโมดูลในขั้นตอนต่อไป

ล่าสุด Ant Lingbo ได้เปิดตัว LingBot-Map ซึ่งเป็นโมเดลพื้นฐานสำหรับการสร้างภาพสามมิติแบบสตรีมมิ่งแบบออโตรีเกรสซีฟล้วนๆ โดยอิงจาก Geometric Context Transformer (GCT) โมเดลนี้สามารถสร้างภาพสามมิติแบบเรียลไทม์จากวิดีโอยาวมากกว่าหนึ่งหมื่นเฟรมภายใต้ข้อจำกัดหน่วยความจำที่เกือบคงที่ ด้วยความเร็วในการประมวลผลประมาณ 20 FPS และมีผลการทดสอบเหนือกว่าวิธีการสตรีมมิ่งที่มีอยู่ในปัจจุบันในหลายมาตรฐาน

Ant Group Lingbo เปิดตัว LingBot-Map: ฝ่าขีดจำกัดการสร้างภาพ 3D แบบสตรีมมิ่ง บรรลุการสร้างแบบจำลองสามมิติแบบเรียลไทม์จากวิดีโอหมื่นเฟรม
การเปรียบเทียบ LingBot-Map กับวิธีการสร้างใหม่แบบสตรีมมิ่งที่ทันสมัยที่สุด

เมื่อได้รับสตรีมวิดีโอต่อเนื่อง LingBot-Map สามารถส่งออกการประมาณตำแหน่งกล้องที่แม่นยำและคลาวด์พอยต์คุณภาพสูงได้พร้อมกัน ความสามารถนี้ได้รับการยืนยันในหลากหลายสถานการณ์:
– การบินถ่ายภาพโลกจริง: รักษาความสามารถในการระบุตำแหน่งที่เสถียรและผลการสร้างภาพสามมิติความแม่นยำสูง

– ลำดับยาวหลายห้อง: เมื่อเผชิญกับการเปลี่ยนแปลงสภาพแวดล้อมอย่างรุนแรงและการเปลี่ยนมุมมองในวงกว้าง โมเดลแสดงความแข็งแกร่ง (Robustness) สูงมาก

– การสร้างแบบจำลองจากวิดีโอที่สร้างขึ้น: เข้ากันได้ดีกับวิดีโอที่สร้างขึ้นจากเครื่องกำเนิดหลัก (Generative Video) และสามารถล็อกตำแหน่งได้อย่างเสถียร

– ฉากกลางแจ้งลำดับยาว: รักษาความแม่นยำของตำแหน่งที่เชื่อถือได้ภายใต้การเคลื่อนไหวเร็วและการเปลี่ยนมุมมองบ่อยครั้ง

– ฉากล้อมรอบอาคาร: เสริมสร้างความสามารถในการสร้างภาพแบบลูปปิด (Loop Closure) เพื่อรับประกันความสอดคล้องในภาพรวม

เนื้อหาที่เปิดตัวครั้งนี้รวมถึงรายงานทางเทคนิค, โค้ดหลัก และน้ำหนักโมเดล ซึ่งได้อัปโหลดพร้อมกันบนแพลตฟอร์ม Hugging Face และ ModelScope แล้ว

Ant Group Lingbo เปิดตัว LingBot-Map: ฝ่าขีดจำกัดการสร้างภาพ 3D แบบสตรีมมิ่ง บรรลุการสร้างแบบจำลองสามมิติแบบเรียลไทม์จากวิดีโอหมื่นเฟรม
– ลิงก์บทความวิจัย: https://arxiv.org/abs/2604.14141
– Hugging Face: https://huggingface.co/robbyant/lingbot-map
– ModelScope: https://www.modelscope.cn/models/Robbyant/lingbot-map
– GitHub: https://github.com/Robbyant/lingbot-map

ด้วยเหตุนี้ ตั้งแต่การประมาณความลึกจากเฟรมเดียว ไปจนถึงการสร้างภาพสามมิติแบบสตรีมมิ่งออโตรีเกรสซีฟล้วนๆ และไปจนถึงการทำความเข้าใจฉากและการควบคุมเอาต์พุต จึงทำให้เกิดสายโซ่เทคโนโลยีที่สมบูรณ์มากขึ้น

ทำไมความทรงจำเชิงพื้นที่ของเครื่องจักรจึงเป็นเรื่องยาก?

มนุษย์สามารถสร้างความทรงจำเชิงพื้นที่อย่างต่อเนื่องระหว่างการเดินทาง โดยผสานข้อมูลประสาทสัมผัสต่อเนื่องให้กลายเป็นแผนที่แบบไดนามิก อย่างไรก็ตาม การทำให้เครื่องจักรสามารถแปลงสตรีมวิดีโอสองมิติให้กลับมาเป็นแบบจำลองสามมิติที่แม่นยำและอัปเดตได้แบบเรียลไทม์นั้น เป็นปัญหาที่ยาวนานในสาขาปัญญาเชิงรูปธรรม (Embodied AI) และรถยนต์ขับเคลื่อนอัตโนมัติ ความท้าทายหลักอยู่ที่: สตรีมวิดีโอไม่มีที่สิ้นสุด, ข้อมูลในอดีตไม่สามารถสูญหายได้, เฟรมปัจจุบันต้องได้รับการประมวลผลทันที ในขณะที่ทรัพยากรหน่วยความจำมีจำกัด

โซลูชันที่มีอยู่ในปัจจุบันส่วนใหญ่มีข้อจำกัด:
– วิธีการออฟไลน์แบบดั้งเดิม (เช่น Structure from Motion, SfM): ต้องรวบรวมทุกเฟรมก่อนแล้วจึงทำการปรับให้เหมาะสมในภาพรวม (Global Optimization) มีความแม่นยำสูงแต่ไม่สามารถทำงานแบบเรียลไทม์ได้
– วิธีการสร้างใหม่แบบสตรีมมิ่ง: มีจุดมุ่งหมายเพื่ออัปเดตความเข้าใจสามมิติทีละเฟรม แต่เผชิญกับปัญหาคอขวดสองประการ:
1. การลืมแบบหายนะ (Catastrophic Forgetting): เครือข่ายประสาทเทียมมีแนวโน้มที่จะเขียนทับข้อมูลเก่า ส่งผลให้การสร้างลำดับยาวเกิดความขัดแย้งระหว่างส่วนหน้าและส่วนหลัง และเกิดการล่องลอย (Drift) ในภาพรวม
2. การขยายตัวของหน่วยความจำ (Memory Bloat): การบันทึกเฟรมประวัติทั้งหมดเพื่อต่อสู้กับการลืม จะทำให้การใช้หน่วยความจำเพิ่มขึ้นแบบทวีคูณตามจำนวนเฟรม ทำให้ยากต่อการจัดการกับวิดีโอยาวมากกว่าหนึ่งหมื่นเฟรม

LingBot-Map เสนอเส้นทางใหม่เพื่อแก้ไขภาวะกลืนไม่เข้าคายไม่ออกนี้

Ant Group Lingbo เปิดตัว LingBot-Map: ฝ่าขีดจำกัดการสร้างภาพ 3D แบบสตรีมมิ่ง บรรลุการสร้างแบบจำลองสามมิติแบบเรียลไทม์จากวิดีโอหมื่นเฟรม
แผนผังกระบวนการของ LingBot-Map กรอบงานนี้ประมวลผลวิวปัจจุบัน โดยใช้โครงข่ายหลัก DINO (DINO backbone) เพื่อดึงคุณลักษณะ (Feature) ผ่านชั้นความสนใจระดับเฟรม (Frame Attention Layer) และชั้นความสนใจบริบทเชิงเรขาคณิต (Geometric Context Attention, GCA Layer) เพื่อปรับแต่งให้ละเอียด โมดูล GCA รวบรวมข้อมูลจากบริบทจุดยึด (Anchor Context), หน้าต่างอ้างอิงตำแหน่งเฉพาะที่ (Local Pose Reference Window) และบริบทความทรงจำวิถี (Trajectory Memory Context) ในที่สุด ส่วนหัวเฉพาะงาน (Task-specific Head) จะทำนายท่าทางกล้อง (Camera Pose) และแผนที่ความลึก (Depth Map) เพื่อให้ได้การสร้างภาพสามมิติแบบสตรีมมิ่งที่แข็งแกร่งและมีประสิทธิภาพด้านหน่วยความจำสำหรับลำดับยาว

แก้ปัญหา “ความทรงจำ” อย่างไร?

การทำให้เครื่องจักรเข้าใจโลกสามมิติแบบเรียลไทม์นั้น โดยพื้นฐานแล้วคือการแก้ปัญหาความทรงจำ: จำอะไร, บีบอัดอย่างไร, และเรียกใช้อย่างรวดเร็วได้อย่างไร หัวใจของ LingBot-Map อยู่ที่กลไก ความสนใจบริบทเชิงเรขาคณิต (Geometric Context Attention, GCA)

การออกแบบ GCA ได้รับแรงบันดาลใจจากอัลกอริธึมคลาสสิกในสาขาหุ่นยนต์อย่าง SLAM (Simultaneous Localization and Mapping) SLAM แบบดั้งเดิมอาศัยข้อจำกัดเชิงเรขาคณิตที่เข้ารหัสด้วยมือ (Hand-coded Geometric Constraints) เพื่อรักษาความทรงจำเชิงพื้นที่สามประเภท: เฟรมอ้างอิงที่ล็อกจุดกำเนิดพิกัด, หน้าต่างเฉพาะที่ที่จับรายละเอียดบริเวณใกล้เคียง, และแผนที่เบาบางที่บันทึกวิถีภาพรวม LingBot-Map ได้ฝังกฎเชิงพื้นที่ประเภทนี้ลงในกลไกความสนใจ (Attention Mechanism) ของ Transformer โดยใช้ความสนใจแบบเหตุและผล (Causal Attention) เพื่อให้แน่ใจว่าโมเดลจะให้เหตุผลโดยอิงจากข้อมูลในอดีตและปัจจุบันเท่านั้น ซึ่งสอดคล้องกับตรรกะการประมวลผลแบบเรียลไทม์

GCA รักษาความทรงจำสามประเภทร่วมกันในการประมวลผลสตรีมวิดีโอ:
1. จุดยึด (Anchor): จดจำระบบพิกัดเริ่มต้น เพื่อเป็นเกณฑ์มาตรฐานที่เสถียรสำหรับการสร้างใหม่ทั้งหมด ป้องกันการล่องลอยของพิกัด (Coordinate Drift) ระหว่างการทำงานระยะยาว
2. หน้าต่างอ้างอิงตำแหน่ง (Pose-reference Window): จับรายละเอียดเชิงเรขาคณิตเฉพาะที่ใกล้กับตำแหน่งปัจจุบัน เพื่อรับประกันความแม่นยำของการสร้างใหม่ทีละเฟรม
3. ความทรงจำวิถี (Trajectory Memory): บีบอัดข้อมูลประวัติศาสตร์จำนวนมหาศาลให้เป็นโทเค็น (Token) แบบเฟรมต่อเฟรมที่กะทัดรัด รักษา “ความประทับใจ” ของเส้นทางในอดีตด้วยต้นทุนการจัดเก็บที่ต่ำมาก กลไกนี้ทำให้การใช้หน่วยความจำของโมเดลแทบไม่เพิ่มขึ้นตามความยาวของวิดีโอ

ความทรงจำทั้งสามประเภทนี้ทำงานร่วมกัน ทำให้โมเดลสามารถเรียกใช้ทั้งเกณฑ์มาตรฐานเชิงพื้นที่, รายละเอียดเฉพาะที่ และวิถีประวัติศาสตร์ได้พร้อมกันขณะประมวลผลเฟรมปัจจุบัน กลไกทั้งหมดนี้สามารถเรียนรู้ได้แบบต้นทางถึงปลายทาง (End-to-end) โดยโมเดลจะเรียนรู้กลยุทธ์การจัดสรรและบีบอัดข้อมูลโดยอัตโนมัติระหว่างการฝึก

การออกแบบนี้นำมาซึ่งการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ ตัวอย่างเช่น วิดีโอหนึ่งหมื่นเฟรม หากใช้ความสนใจแบบเหตุและผลแบบง่ายๆ (Naive Causal Attention) ที่แคชประวัติทั้งหมด จะต้องรักษาโทเค็นประมาณ 5 ล้านโทเค็น ในขณะที่ GCA ต้องการเพียงประมาณ 70,000 โทเค็นเท่านั้น ซึ่งบีบอัดได้เกือบ 80 เท่า และต้นทุนการคำนวณและหน่วยความจำสำหรับการประมวลผลภาพใหม่แต่ละเฟรมนั้นเกือบคงที่

Ant Group Lingbo เปิดตัว LingBot-Map: ฝ่าขีดจำกัดการสร้างภาพ 3D แบบสตรีมมิ่ง บรรลุการสร้างแบบจำลองสามมิติแบบเรียลไทม์จากวิดีโอหมื่นเฟรม

การเปรียบเทียบกลไกความสนใจและกลยุทธ์หลักของโมเดล

ภาพด้านล่างเปรียบเทียบลักษณะของกลไกความสนใจต่างๆ ในการประมวลผลลำดับยาว แต่ละกล่องสี่เหลี่ยมแสดงถึงโทเค็นของหนึ่งเฟรม ซึ่งประกอบด้วยโทเค็นบริบทจำนวนเล็กน้อยและโทเค็นภาพจำนวนมาก
* (a) ความสนใจแบบเต็ม (Full Attention): ให้ความสนใจกับทุกเฟรม มีต้นทุนการคำนวณสูงมาก
* (b) ความสนใจแบบเหตุและผล (Causal Attention): รองรับการประมวลผลแบบสตรีมมิ่ง แต่ต้นทุนการคำนวณเพิ่มขึ้นเป็นเส้นตรงตามความยาวลำดับ
* (c) ความสนใจแบบหน้าต่างเลื่อน (Sliding-window Attention): จำกัดต้นทุนการคำนวณ แต่จะสูญเสียข้อมูลบริบทระยะยาว (Long-range Context)
* (d) ความสนใจบริบทเชิงเรขาคณิต (GCA): แบ่งบริบทแบบสตรีมมิ่งออกเป็นกรอบจุดยึด (n=2), หน้าต่างเฉพาะที่ (k=2) และความทรงจำวิถี ในขณะที่รักษาต้นทุนการคำนวณให้เกือบคงที่ตามความยาวลำดับ ยังคงรักษาข้อมูลบริบทระยะยาวที่อุดมสมบูรณ์ไว้ได้

ทำอย่างไรให้ “จำแบบมีเลือก”?

กลไก GCA ต้องการกลยุทธ์การฝึกและการอนุมาน (Inference) ที่เหมาะสม เพื่อให้โมเดลสามารถทำงานได้อย่างเสถียรในลำดับยาว

1. การฝึกแบบวิวเพิ่มขึ้นทีละน้อย (Progressive View Training)
การฝึกบนลำดับยาวโดยตรงเป็นเรื่องที่ท้าทายอย่างยิ่ง เนื่องจากข้อผิดพลาดของตำแหน่งในเฟรมแรกๆ จะแพร่กระจายไปตามวิถี และทำลายความเสถียรของฟังก์ชันการสูญเสีย (Loss Function) ด้วยเหตุนี้ LingBot-Map จึงใช้กลยุทธ์การฝึกแบบวิวเพิ่มขึ้นทีละน้อย: โมเดลเริ่มฝึกจากลำดับย่อยสั้น (24 เฟรม) และค่อยๆ เพิ่มจำนวนวิวขึ้นเป็น 320 เฟรมระหว่างกระบวนการฝึก สิ่งนี้ทำให้โมเดลได้รับค่าประมาณเรขาคณิตเฉพาะที่ที่เชื่อถือได้จากลำดับสั้นก่อน จากนั้นจึงเรียนรู้วิธีรักษาความสอดคล้องในภาพรวมบนวิถีที่ยาวขึ้นเรื่อยๆ

2. กลยุทธ์ความขนานของบริบท (Context Parallelism Strategy)
เมื่อความยาวลำดับการฝึกเพิ่มขึ้น ความซับซ้อนในการคำนวณของความสนใจข้ามเฟรม (Cross-frame Attention) จะเพิ่มขึ้นเป็นกำลังสอง LingBot-Map ได้นำกลยุทธ์ความขนานของบริบทมาใช้ โดยกระจายวิวต่างๆ ไปยัง GPU หลายตัว และใช้การสื่อสารภาพรวมที่มีประสิทธิภาพเพื่อคำนวณความสนใจแบบขนาน จึงสามารถทำการฝึกขนาดใหญ่ได้โดยไม่เสียสละความยาวลำดับ

3. การออกแบบฟังก์ชันการสูญเสียแบบผสม (Composite Loss Function Design)
โมเดลได้รับการฝึกโดยใช้ฟังก์ชันการสูญเสียแบบผสม ซึ่งประกอบด้วยการสูญเสียความลึก (Depth Loss), การสูญเสียตำแหน่งสัมบูรณ์ (Absolute Pose Loss) และการสูญเสียตำแหน่งสัมพัทธ์ (Relative Pose Loss) โมเดลใช้การแปลงจากพิกัดกล้องไปเป็นพิกัดโลก (Camera-to-World Transformation) เพื่อการควบคุมดูแล (Supervision) ซึ่งหลีกเลี่ยงปัญหาการขยายข้อผิดพลาดที่เกิดจากการผสมผสานระหว่างการหมุนและการเลื่อน (Rotation-Translation Coupling) ในการกำหนดพารามิเตอร์จากโลกไปเป็นกล้อง (World-to-Camera Parameterization) นอกจากนี้ การเข้ารหัสตำแหน่งเวลาในวิดีโอ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง