Ant Group’s Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

2026年3月31日 am10:52 • โครงการโอเพนซอร์ส • 164 views

แอนท์ลิงโบ เปิดตัวชุดข้อมูล RGB-D 3 ล้านคู่ แก้ปัญหาข้อจำกัดด้านข้อมูลสำหรับปัญญาประดิษฐ์เชิงพื้นที่

อะไรคือสิ่งที่จำกัดการนำปัญญาประดิษฐ์เชิงพื้นที่ไปใช้จริง?

จากรถยนต์ขับเคลื่อนอัตโนมัติไปจนถึงปัญญาประดิษฐ์เชิงกายภาพ (Embodied AI) อุตสาหกรรมเห็นพ้องต้องกันว่าปัจจัยหลักคือ ข้อมูล การขาดแคลนข้อมูลทำให้ความสามารถในการปรับตัวของโมเดลอ่อนแอ มักต้องพึ่งพาการเพิ่มฮาร์ดแวร์เพื่อชดเชย

ความท้าทายนี้เด่นชัดเป็นพิเศษในสาขาหุ่นยนต์ หุ่นยนต์พึ่งพากล้อง RGB-D เพื่อรับรู้สภาพแวดล้อมสามมิติ อุปกรณ์ประเภทนี้สามารถรับข้อมูลภาพ RGB และข้อมูลความลึกได้พร้อมกัน อย่างไรก็ตาม เมื่อเจอวัตถุโปร่งใสหรือสะท้อนแสงสูง เช่น กระจก, ประตูลิฟต์, แก้ว การรับรู้ความลึกของกล้อง RGB-D มักจะล้มเหลว ทำให้หุ่นยนต์ “ตาบอด”

สิ่งเหล่านี้คือสถานการณ์ที่หลีกเลี่ยงไม่ได้เมื่อหุ่นยนต์ถูกนำไปใช้งานจริง ในอดีต เนื่องจากขาดฐานข้อมูลคุณภาพสูง อุตสาหกรรมมักใช้วิธีเพิ่มหรืออัปเกรดเซ็นเซอร์ฮาร์ดแวร์เพื่อรับมือ

สถานการณ์นี้อาจกำลังจะเปลี่ยนไป เมื่อเร็วๆ นี้ แอนท์ลิงโบ (Ant Lingbo) ได้เปิดตัวชุดข้อมูล RGB-D ขนาดใหญ่เพื่อแก้ไขปัญหาหลักนี้ โมเดลที่ฝึกด้วยชุดข้อมูลนี้ ได้รับผลการทดสอบที่นำหน้า (SOTA) ในหลายมาตรฐาน

ข้อจำกัดของปัญญาประดิษฐ์เชิงพื้นที่อยู่ที่ไหน?

ปัญญาประดิษฐ์เชิงพื้นที่เป็นกุญแจสำคัญที่ทำให้หุ่นยนต์สามารถรับรู้สภาพแวดล้อม วางแผนเส้นทาง นำทาง และดำเนินการที่ละเอียดอ่อนได้ ตัวอย่างเช่น การให้หุ่นยนต์หยิบแก้ว มันไม่เพียงต้องระบุวัตถุ แต่ยังต้องรับรู้ระยะทาง ตำแหน่ง และขอบเขตสามมิติของแก้วได้อย่างแม่นยำ

การบรรลุความสามารถนี้ต้องพึ่งพาข้อมูลเชิงพื้นที่สามมิติขนาดใหญ่และมีคุณภาพสูง แม้จะมีภาพ RGB จำนวนมหาศาลบนอินเทอร์เน็ต แต่ให้ข้อมูลสองมิติเท่านั้น ทำให้โมเดล AI สร้างความเข้าใจต่อโลกสามมิติได้ยาก

ดังนั้น อุตสาหกรรมจึง一直在สำรวจเส้นทางเสริมความสามารถการรับรู้เชิงพื้นที่ให้ AI ซึ่งรวมถึงเทคโนโลยีเช่น กล้อง RGB-D, ลิด้าร์ (LiDAR) และการสร้างแบบจำลองสามมิติ (3D Reconstruction) โดยเฉพาะกล้อง RGB-D ได้รับความนิยมเนื่องจากสามารถให้ข้อมูลสามมิติรวมถึงข้อมูลความลึกได้แบบเรียลไทม์ เสมือนเป็นการเปิด “ตาที่สาม” ให้ AI รับรู้ระยะทาง

แต่แนวทางเทคโนโลยี RGB-D มีความท้าทายสองประการ ประการแรกคือ การเก็บรวบรวมข้อมูลทำได้ยาก: กระบวนการเก็บรวบรวมไม่ใช่แค่การถ่ายภาพธรรมดา ต้องมั่นใจในความสอดคล้องของภาพซ้ายขวา ความสอดคล้องของเวลาและพื้นที่ระหว่างข้อมูล RGB และข้อมูลความลึก และจัดการกับความแตกต่างระหว่างฮาร์ดแวร์ต่างๆ

ประการที่สองคือ ข้อจำกัดของเซ็นเซอร์เอง: กล้อง RGB-D มักจะวัดความลึกได้ไม่แม่นยำเมื่อเจอพื้นผิวเช่น แก้ว กระจก วัสดุโลหะสะท้อนแสง หรือผนังสีขาวที่พื้นผิวเรียบ

ยกตัวอย่าง หุ่นยนต์หยิบแก้ว แก้วที่เราเห็นในชีวิตประจำวันเป็นแบบนี้:

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

แต่ในแผนที่ความลึกจากกล้อง RGB-D ที่ล้มเหลว แก้วอาจปรากฏเป็นแบบนี้:

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

จากมุมมองของหุ่นยนต์ แก้วสองใบเชื่อมต่อเป็นพืดเดียวกัน แยกขอบเขตไม่ได้ ย่อมทำให้หยิบได้ไม่แม่นยำ ความไม่เสถียรของกล้อง RGB-D ทำให้ปัญหาการขาดแคลนข้อมูลฝึกอบรมคุณภาพสูงรุนแรงขึ้น

แอนท์ลิงโบ เปิดชุดข้อมูลปัญญาประดิษฐ์เชิงพื้นที่

เพื่อบรรเทาปัญหาขาดแคลนข้อมูลในอุตสาหกรรม แอนท์ลิงโบ ได้เปิดชุดข้อมูล LingBot-Depth-Dataset ชุดข้อมูลนี้มีขนาดรวม 2.71TB ประกอบด้วยข้อมูล RGB-D ที่ติดป้ายกำกับ 3 ล้านคู่ แต่ละตัวอย่างประกอบด้วยภาพ RGB หนึ่งภาพ แผนที่ความลึกดิบจากเซ็นเซอร์หนึ่งภาพ และแผนที่ความลึกค่าจริง (Ground Truth Depth Map) หนึ่งภาพ

ในจำนวนนี้ประมาณ 2 ล้านคู่ เป็นข้อมูลจากสถานการณ์จริง ซึ่ง主要包括:
* RobbyReal: ข้อมูลประมาณ 1.4 ล้านคู่ ที่เก็บรวบรวมโดยกล้อง RGB-D หลายตัวในสภาพแวดล้อมในร่มจริง
* RobbyVla: ข้อมูลประมาณ 580,000 คู่ ที่เก็บรวบรวมโดยหุ่นยนต์ในงาน Vision-Language-Action (VLA)

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

ข้อมูลจริงเหล่านี้ครอบคลุมสถานการณ์ชีวิตประจำวันที่หลากหลาย เช่น บ้าน ห้องเรียน พิพิธภัณฑ์ ร้านค้า โรงพยาบาล โรงยิม ลิฟต์ ความหลากหลายของสถานการณ์ช่วยเพิ่มความสามารถในการปรับตัวของโมเดลที่ฝึกด้วยข้อมูลนี้

นอกจากนี้ ชุดข้อมูลยังประกอบด้วยข้อมูลสังเคราะห์ประมาณ 1 ล้านคู่ RobbySim ที่เรนเดอร์จากมุมมองกล้องคู่

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

ส่วนที่เหลือคือ RobbySimVal (ประมาณ 38,000 รายการ) ซึ่งใช้เป็นชุดตรวจสอบ (Validation Set) สำหรับข้อมูลสังเคราะห์ วิธีการสร้างข้อมูลแบบผสมผสานระหว่างจริงและเสมือนนี้ สามารถครอบคลุมสถานการณ์ขอบ (Edge Cases) ที่เก็บรวบรวมได้ยาก และควบคุมต้นทุนการได้มาซึ่งข้อมูลได้อย่างมีประสิทธิภาพ

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

ขนาดและความหลากหลายของสถานการณ์เป็นพื้นฐานที่ทำให้ชุดข้อมูลสามารถนำไปใช้ได้กว้างขวาง แต่ไม่ใช่ทั้งหมด ข้อได้เปรียบสำคัญอีกประการของ LingBot-Depth-Dataset คือ ความหลากหลายของการกระจายข้อมูล ชุดข้อมูลใช้ กล้องวัดความลึกหลัก 6 รุ่น ได้แก่ Orbbec 335/335L และ Intel RealSense D405/D415/D435/D455 ในการเก็บรวบรวม กล้องแต่ละรุ่นมีลักษณะการสร้างภาพ รูปแบบสัญญาณรบกวน และความแม่นยำของความลึกที่แตกต่างกัน ทำให้ชุดข้อมูลครอบคลุมการกระจายของเซ็นเซอร์หลายประเภทโดยธรรมชาติ เป็นพื้นฐานข้อมูลที่ครอบคลุมมากขึ้นสำหรับการฝึกโมเดลขั้นต่อไป

这意味着这座“数据富矿”可供更广泛的研究团队开发利用，有望成为空间智能领域的基础设施。

สร้าง “แพลตฟอร์มสมอง” สำหรับปัญญาประดิษฐ์เชิงกายภาพ

โครงสร้างพื้นฐานข้อมูลที่แอนท์ลิงโบเปิดตัว ช่วยบรรเทาปัญหาการขาดแคลนข้อมูล RGB-D จากสถานการณ์จริงในชุมชนโอเพนซอร์ส และคุณค่าของมันได้รับการพิสูจน์แล้วในทางปฏิบัติ

ต้นปีนี้ โมเดล LingBot-Depth ที่ฝึกด้วย LingBot-Depth-Dataset ได้รับการเผยแพร่ โมเดลนี้ทำได้ผลลัพธ์นำหน้า (SOTA) ในการทดสอบมาตรฐานการเติมเต็มความลึก (Depth Completion) ที่มีชื่อเสียง เช่น iBims, NYUv2 และ DIODE

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

หลังจากนำโมเดล LingBot-Depth ไปติดตั้งบนหุ่นยนต์จริง ทำให้มันสามารถหยิบจับวัตถุโปร่งใสและสะท้อนแสงได้อย่างมั่นคง แก้ปัญหาสำคัญที่เคยมีมา

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

หลังจากนั้น แอนท์ลิงโบยังได้เปิดตัว LingBot-VLA (เชื่อมต่อการมองเห็น ภาษา และการตัดสินใจดำเนินการ), LingBot-World (ให้สภาพแวดล้อมฝึกจำลอง) และ LingBot-VA โดย LingBot-VA นำเสนอรูปแบบใหม่โดยให้โมเดลโลก (World Model) ขับเคลื่อนการกระทำของหุ่นยนต์โดยตรง บรรลุกระบวนทัศน์ขั้นสูงที่ “คาดการณ์พร้อมดำเนินการ”

Ant Group's Lingbo Open-Sources 3 Million RGB-D Dataset Pairs, Breaking the Bottleneck in Spatial Intelligence Data

จากการรับรู้ไปสู่การตัดสินใจ จากโมเดลไปสู่ข้อมูล แอนท์ลิงโบกำลังสร้าง “แพลตฟอร์มสมอง” ที่สมบูรณ์สำหรับปัญญาประดิษฐ์เชิงกายภาพ ผลงานโอเพนซอร์สชุดนี้ยังให้แนวทางการพัฒนาสำหรับอุตสาหกรรมด้วย

AI ทางกายภาพ ข้อมูลต้องมาก่อน

แนวคิดที่ใช้ซอฟต์แวร์ (อัลกอริทึม) เสริมความสามารถการรับรู้ แทนที่จะพึ่งพาการเพิ่มฮาร์ดแวร์เพียงอย่างเดียว สะท้อนถึงหลักการ “ความเท่าเทียมกันของซอฟต์แวร์และฮาร์ดแวร์” (Software-Hardware Equivalence Principle) ในวิทยาการคอมพิวเตอร์

ควร权衡ระหว่างซอฟต์แวร์ (อัลกอริทึม/ข้อมูล) และฮาร์ดแวร์ (เซ็นเซอร์) อย่างไร? อุตสาหกรรมรถยนต์ขับเคลื่อนอัตโนมัติ ซึ่งอยู่ในขอบเขตของ AI ทางกายภาพเช่นกัน ได้สร้างฉันทามติที่สามารถนำมาเป็นแบบอย่างได้:

จุดเน้นหลักอันดับแรกคือข้อมูลและสถาปัตยกรรมอัลกอริทึม ข้อมูลเป็นรากฐานของการพัฒนา AI ส่วนสถาปัตยกรรมอัลกอริทึมเกี่ยวข้องกับการบูรณาการอัลกอริทึมหลายๆ อย่างให้เป็นความสามารถของระบบ และสะสมประสบการณ์ในระยะยาว

อันดับต่อมาจึงเป็นการเพิ่มจำนวนเซ็นเซอร์หรือยกระดับคุณสมบัติ การปฏิบัติในสาขารถยนต์ขับเคลื่อนอัตโนมัติแสดงให้เห็นว่า เมื่อขนาดข้อมูลเพิ่มขึ้นและสถาปัตยกรรมอัลกอริทึมได้รับการปรับปรุง ความสามารถในการรับรู้เชิงพื้นที่ของโมเดลจะเพิ่มขึ้นอย่างต่อเนื่อง ในขณะที่ผลประโยชน์ส่วนเพิ่มจากการเพิ่มเซ็นเซอร์ฮาร์ดแวร์จะลดลง

ฉันทามตินี้ผลักดันให้ต้นทุนฮาร์ดแวร์ลดลง เป็นรากฐานสำหรับการพาณิชย์ของรถยนต์ขับเคลื่อนอัตโนมัติ ประสบการณ์จากรถยนต์ขับเคลื่อนอัตโนมัติพิสูจน์แล้วว่า การนำ AI ทางกายภาพไปใช้จริงควรพิจารณาแนวทางซอฟต์แวร์เป็นอันดับแรก ซึ่งไม่เพียงแต่เพิ่มประสิทธิภาพปัญญาประดิษฐ์เชิงพื้นที่ได้อย่างมีประสิทธิภาพ แต่ยังเอื้อต่อการขยายเชิงพาณิชย์มากขึ้น นี่คือข้อคิดที่ชุดโมเดลและชุดข้อมูลโอเพนซอร์สของแอนท์ลิงโบมอบให้กับอุตสาหกรรมปัญญาประดิษฐ์เชิงกายภาพ:

การเสริมความแข็งแกร่งให้ปัญญาประดิษฐ์เชิงพื้นที่ ควรเริ่มจากข้อมูลและอัลกอริทึมเป็นอันดับแรก แทนที่จะไล่ตามฮาร์ดแวร์ราคาแพง

ที่อยู่สำหรับเข้าถึงชุดข้อมูล:
* Hugging Face: https://huggingface.co/datasets/robbyant/mdm_depth
* ModelScope: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง