บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

โมเดลพื้นฐานสำหรับสร้าง 3D แบบสตรีมมิ่งชื่อ LingBot-Map นี้ ใช้เพียงกล้อง RGB ธรรมดา โดยไม่ต้องพึ่งเรดาร์เลเซอร์หรือเซ็นเซอร์วัดความลึก ก็สามารถสร้างแผนที่ 3D แบบเรียลไทม์ได้ที่ 20 FPS จุดเด่นที่สุดคือ เมื่อประมวลผลลำดับภาพต่อเนื่องยาวนานถึงหนึ่งหมื่นเฟรม ความแม่นยำในการสร้างใหม่แทบไม่ลดลง

บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

ผลงานนี้ได้รับความสนใจอย่างกว้างขวางในแวดวงหุ่นยนต์และอุตสาหกรรม ศาสตราจารย์ Andrew Davison จาก Imperial College London หนึ่งในผู้บุกเบิกด้าน SLAM ได้ออกมาแสดงความคิดเห็นอย่างเปิดเผย ซึ่งหาได้ยากว่า “ดูเหมือนว่างานนี้มีแนวคิด SLAM ที่น่าประทับใจผสมผสานอยู่ ขอแสดงความยินดีกับผลสำเร็จที่ได้” ศาสตราจารย์ Davison แทบไม่เคยแสดงความคิดเห็นต่อโครงการเฉพาะทางอย่างเปิดเผย การที่ท่านแชร์และใช้คำว่า “impressive” นี้ แสดงให้เห็นถึงน้ำหนักของงานชิ้นนี้

บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

นักวิจัย AI จาก Agility Robotics ยังกล่าวอีกว่า “รอวันนี้มานานแล้ว”

บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

ปรมาจารย์ SLAM ให้การยอมรับ อุตสาหกรรมร้องว่า “ในที่สุดก็ได้รอ”

การเปิดตัว LingBot-Map ดึงดูดความสนใจอย่างมาก ผลการทดสอบจริงแสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง:

  • ฉากถ่ายจากอากาศ: เมื่อกล้องสแกนผ่านย่านเมือง โมเดลสามารถสร้างคลาวด์จุด 3D ที่สมบูรณ์ของผนังอาคาร หลังคา ถนน ต้นไม้ ได้แบบเรียลไทม์ แม้กระทั่งสามารถแยกแยะเครื่องปรับอากาศภายนอกบนหลังคาได้
    บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน
  • ฉากในร่ม: เมื่อกล้องเคลื่อนที่ผ่านหลายห้อง แสงและโครงสร้างเปลี่ยนแปลงอย่างต่อเนื่อง แผนที่ 3D ของหลายห้องที่สร้างขึ้นมาสอดคล้องกันอย่างแม่นยำในเชิงพื้นที่ ไม่เกิดการผิดตำแหน่งห้องหรือภาพซ้อน
  • สภาพแวดล้อมมืดสนิทสุดขั้ว: ในทางเดินแคบที่เกือบมืดสนิท โซลูชันการมองเห็นแบบดั้งเดิมส่วนใหญ่ล้มเหลว แต่ LingBot-Map ยังคงสามารถสร้างโครงสร้างทางเดินที่ต่อเนื่องและวิถีการเคลื่อนที่ที่เสถียรได้
  • เข้ากันได้กับโลกเสมือน: ทีมงานป้อนวิดีโอสไตล์การ์ตูนที่สร้างโดย AI ให้กับ LingBot-Map โมเดลก็สามารถสร้าง 3D ที่เสถียรได้เช่นกัน เชื่อมโยงเส้นทางจาก “โลกเสมือน → ความเข้าใจพื้นที่ 3D”
    บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

การเปรียบเทียบวิถีบนชุดข้อมูลมาตรฐานอย่าง Oxford Spires และ Tanks & Temples แสดงให้เห็นว่า วิถีที่ LingBot-Map ทำนาย (สีส้ม) เกือบจะทับซ้อนกับวิถีจริง (สีน้ำเงิน) อย่างสมบูรณ์ ในขณะที่วิธีอื่นๆ ในช่วงเวลาเดียวกันเกิดการล่องลอยอย่างรุนแรงแล้ว

เทคโนโลยีหลัก: ระบบ “ความจำแบบเลือกสรร”

ความท้าทายหลักของการสร้าง 3D แบบสตรีมมิ่งคือ โมเดลต้อง “สร้างไปดูไป” พร้อมกัน โดยไม่ลืมข้อมูลที่เห็นในอดีต และไม่ปล่อยให้หน่วยความจำเติบโตอย่างไม่จำกัด

โซลูชันแบบดั้งเดิมมักเผชิญกับภาวะกลืนไม่เข้าคายไม่ออก: ไม่ว่าจะลืมประวัติศาสตร์เพราะบีบอัดมากเกินไป หรือไม่ก็ทำให้หน่วยความจำเติบโตเชิงเส้นเพราะแคชเฟรมประวัติทั้งหมด ไม่สามารถประมวลผลลำดับยาวได้ นวัตกรรมของ LingBot-Map อยู่ที่การได้รับแรงบันดาลใจจากแนวคิดเชิงโครงสร้างของ SLAM แบบคลาสสิก และทำให้กลายเป็นส่วนหนึ่งของกลไกความสนใจ (Attention) ของ Transformer ก่อให้เกิดระบบ “ความจำแบบเลือกสรร” ที่มีชื่อว่า ความสนใจตามบริบททางเรขาคณิต (Geometric Contextual Attention – GCA)

บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

GCA รักษาความจำสามระดับที่มีความละเอียดต่างกันพร้อมกัน:
1. จุดยึด (Anchor): ล็อกเฟรมแรกๆ ไม่กี่เฟรมเป็นเกณฑ์อ้างอิงสัมบูรณ์ของระบบพิกัดและสเกล เพื่อรับประกันความสอดคล้องในระยะยาว
2. หน้าต่างอ้างอิงท่าทาง (Pose Reference Window): รักษาข้อมูลภาพที่สมบูรณ์ของเฟรมล่าสุดหลายสิบเฟรม เพื่อจับรายละเอียดทางเรขาคณิตที่หนาแน่นของตำแหน่งปัจจุบัน
3. ความจำวิถี (Trajectory Memory): สำหรับเฟรมประวัติศาสตร์ที่เก่ากว่า แต่ละเฟรมจะเก็บเฉพาะโทเค็นสรุปที่ถูกบีบอัดสูงเพียง 6 โทเค็น เพื่อบันทึกข้อมูลเส้นทางสำคัญที่ผ่านมา ประหยัดหน่วยความจำอย่างมาก

กลไกนี้มีประสิทธิภาพชัดเจน เมื่อประมวลผลวิดีโอหนึ่งหมื่นเฟรม ความสนใจเชิงเหตุผล (Causal Attention) มาตรฐานต้องการแคชประมาณ 5 ล้านโทเค็น ในขณะที่ GCA ต้องการเพียงประมาณ 70,000 โทเค็น อัตราการเติบโตของหน่วยความจำลดลงประมาณ 80 เท่า ทำให้ LingBot-Map สามารถประมวลผลลำดับวิดีโอยาวพิเศษภายใต้หน่วยความจำคงที่ได้

การฝึกโมเดลใช้กลยุทธ์สองขั้นตอน: ขั้นแรกฝึกล่วงหน้า (Pre-train) บนชุดข้อมูลที่หลากหลาย 29 ชุด เพื่อสร้างความเข้าใจทางเรขาคณิตทั่วไป จากนั้นจึงนำกลไก GCA เข้ามา ค่อยๆ เพิ่มจำนวนมุมมองในการฝึก เพื่อให้โมเดลเรียนรู้การจัดการกับวิถียาว

การประเมินประสิทธิภาพ: ความแม่นยำนำหน้า เสถียรในลำดับยาว

งานวิจัยได้ทำการประเมินอย่างครอบคลุมบนเกณฑ์มาตรฐานอำนาจหลายแห่ง ผลลัพธ์ทั้งหมดแสดงให้เห็นถึงความได้เปรียบ:

บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน

  • Oxford Spires (วิถีผสมในร่ม/กลางแจ้งขนาดใหญ่): ค่าความคลาดเคลื่อนวิถีสัมบูรณ์ (ATE) อยู่ที่ 6.42 เมตร ดีกว่าอันดับสอง (18.16 เมตร) อย่างมีนัยสำคัญ และยังดีกว่าวิธีออฟไลน์ที่ต้องดูเฟรมทั้งหมดก่อนประมวลผล (12.87 เมตร) อีกด้วย
  • ความเสถียรของลำดับยาว: เมื่อความยาวลำดับเพิ่มจาก 320 เฟรมเป็น 3840 เฟรม ATE ของมันเพิ่มขึ้นเพียงเล็กน้อยจาก 6.42 เมตรเป็น 7.11 เมตร ความแม่นยำลดลงน้อยมาก
  • ETH3D (ผสมในร่ม/กลางแจ้ง มีค่าจริงจากเลเซอร์): คะแนน F1 ในการสร้างใหม่ถึง 98.98% เพิ่มขึ้นมากกว่า 21 จุดเปอร์เซ็นต์เมื่อเทียบกับอันดับสอง (77.28%)
  • Tanks & Temples (กลางแจ้งขนาดใหญ่): ATE อยู่ที่ 0.20 เมตร ดีกว่าอันดับสองที่ 0.76 เมตร
  • 7-Scenes (ในร่ม RGB-D): ATE อยู่ที่ 0.08 เมตร เป็นอันดับหนึ่งในสนาม

ผลกระทบที่อาจเกิดขึ้นต่อแวดวงหุ่นยนต์

ความก้าวหน้าของ LingBot-Map ไม่เพียงปรากฏในตัวชี้วัดทางวิชาการเท่านั้น แต่ยังนำมาซึ่งความเป็นไปได้ในการเปลี่ยนแปลงที่จับต้องได้สำหรับอุตสาหกรรมหุ่นยนต์:

  1. ลดต้นทุนฮาร์ดแวร์อย่างมาก: ต้องการเพียงกล้อง RGB ราคาถูกก็สามารถรับรู้และสร้างแผนที่ 3D คุณภาพสูงได้ มีแนวโน้มที่จะแทนที่โซลูชันเรดาร์เลเซอร์ที่มีต้นทุนสูง ซึ่งมีความสำคัญอย่างมากสำหรับหมวดหมู่ที่อ่อนไหวต่อราคา เช่น หุ่นยนต์บริการในครัวเรือน ยานพาหนะส่งของความเร็วต่ำ เป็นต้น
  2. ทำให้การนำทางอัตโนมัติระยะยาวเป็นจริง: ความสามารถในการประมวลผลหนึ่งหมื่นเฟรมด้วยหน่วยความจำคงที่ ทำให้หุ่นยนต์สามารถตรวจสอบและนำทางอย่างต่อเนื่องเป็นเวลาหลายชั่วโมงในคลังสินค้าขนาดใหญ่ ศูนย์ลอจิสติกส์ หรือถนนในเมืองได้
  3. ผสานกับโมเดลประมาณความลึก ปิดวงจรการรับรู้: งานนี้สามารถผสานกับโมเดล LingBot-Depth ที่ทีมเปิดตัวก่อนหน้านี้ LingBot-Depth ผ่านเทคโนโลยีการสร้างแบบจำลองความลึกรูปแบบมาสก์ (Masked Depth Modeling) สามารถแก้ปัญหาช่องว่างในแผนที่ความลึกที่เกิดจากวัตถุโปร่งใสและสะท้อนแสงได้อย่างมีประสิทธิภาพ บรรลุความแม่นยำระดับ SOTA บนเกณฑ์มาตรฐานอำนาจ
    บิดาแห่ง SLAM ชมเชยเป็นกรณีพิเศษ! ทีมจีนเปิดตัว LingBot-Map แบบโอเพ่นซอร์ส: กล้องธรรมดาสร้างการสร้าง 3D แบบสตรีมมิ่งได้หมื่นเฟรม กระตุ้นความสนใจจากผู้ชม 1.2 ล้านคน
    ทั้งสองรวมกัน LingBot-Depth รับผิดชอบการรับรู้ระยะทางของแต่ละพิกเซลอย่างแม่นยำ LingBot-Map รับผิดชอบการเข้าใจฉากสามมิติโดยรวมแบบเรียลไทม์ สร้างพื้นฐานการรับรู้พื้นที่ที่สมบูรณ์และเชื่อถือได้สำหรับการทำงานที่คล่องแคล่วของหุ่นยนต์ (เช่น การจับแก้วโปร่งใส ชิ้นส่วนโลหะสะท้อนแสง) ตามที่ทราบ LingBot-Depth ได้รับการรับรองจากห้องปฏิบัติการการมองเห็นความลึก Orbbec (奥比中光) และมีแผนที่จะเปิดตัวผลิตภัณฑ์กล้องวัดความลึกรุ่นใหม่

ภาพปริศนาเดียว เดินห้าขั้น

เมื่อมองในมุมสูง การเปิดตัว LingBot-Map ไม่ใช่เหตุการณ์ที่แยกโดด แต่เป็นเหตุการณ์สำคัญล่าสุดบนเส้นทางวิวัฒนาการเทคโนโลยี Embodied AI ของ Ant Lingbo

ย้อนดูแผนที่เส้นทางเทคโนโลยีของ Ant Lingbo ในสามเดือนที่ผ่านมา: เมื่อเดือนมกราคมปีนี้ ใน “สัปดาห์วิวัฒนาการ Embodied AI” ได้เปิดตัวโมเดลหลักสี่รุ่น

  • LingBot-Depth: รับผิดชอบการรับรู้ความลึก
  • LingBot-VLA: ในฐานะ Large Language Model สำหรับ Embodied AI ทำลายสถิติอัตราความสำเร็จในการทำงานจริงในการประเมิน GM-100 ของ Shanghai Jiao Tong University
  • LingBot-World: เทียบเคียงกับ Google Genie 3 บรรลุการโต้ตอบแบบเรียลไทม์ที่ 16 FPS
  • LingBot-VA: บรรลุการสร้างแบบจำลองร่วมวิดีโอ-การกระทำแบบถดถอย (Autoregressive) เป็นครั้งแรก อัตราความสำเร็จของงานจริงเพิ่มขึ้นเฉลี่ย 20% เมื่อเทียบกับโมเดลฐาน

อย่างไรก็ตาม ในสแต็กเทคโนโลยียังคงมีช่องว่างสำคัญอยู่เสมอ: การประมาณความลึกให้ข้อมูล “จุด” เฟรมต่อเฟรม ในขณะที่การสร้างแผนที่ 3D ต้องการข้อมูล “พื้นผิว” อย่างต่อเนื่อง ชั้นความเข้าใจพื้นที่แบบเรียลไทม์ระหว่างทั้งสองก่อนหน้านี้ว่างเปล่า

การมาถึงของ LingBot-Map เติมเต็มภาพปริศนาชิ้นนี้ได้อย่างแม่นยำ

ณ จุดนี้ สแต็กเทคโนโลยี Embodied AI ของ Ant Lingbo ก่อตัวเป็นวงจรปิดที่สมบูรณ์ตั้งแต่การรับรู้ไปจนถึงการตัดสินใจ:
มองเห็นโลก (Depth) → เข้าใจพื้นที่ (Map) → จำลองฟิสิกส์ (World) → ตัดสินใจลงมือทำ (VLA/VA)

ทุกส่วนของสายโซ่เทคโนโลยีนี้ได้เปิดตัวภายใต้สัญญา Apache 2.0 แล้ว รหัส น้ำหนักโมเดล และรายงานทางเทคนิคเผยแพร่พร้อมกันบนแพลตฟอร์ม Hugging Face และ ModelScope ซึ่งหาได้ยากทั่วโลก

สำหรับอุตสาหกรรมหุ่นยนต์ นี่หมายความว่าฟังก์ชันการทำงานที่กล้องเดียวสามารถทำได้ ตั้งแต่วันนี้เป็นต้นไปถูกขยายออกไปอย่างมาก

ลิงก์อ้างอิง:
* Hugging Face: https://huggingface.co/robbyant/lingbot-map
* ModelScope: https://www.modelscope.cn/models/Robbyant/lingbot-map
* GitHub: https://github.com/Robbyant/lingbot-map
* งานวิจัย: https://arxiv.org/abs/2604.14141
* หน้าแรกโครงการ: https://technology.robbyant.com/lingbot-map


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31292

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐