นักวิจัยที่ทำงานด้านการประมาณความลึกและการเติมเต็มความลึก อาจเคยประสบกับภาวะกลืนไม่เข้าคายไม่ออกเช่นนี้: แม้โมเดลจะทำคะแนนได้ยอดเยี่ยมในการทดสอบมาตรฐานคลาสสิกอย่าง NYU Depth V2 แต่เมื่อนำไปใช้งานจริงในระบบหุ่นยนต์ ปัญหาก็เผยออกมาอย่างชัดเจน – ภาพความลึกมีขอบเบลอ ค่าความลึกในระยะไกลคลาดเคลื่อน และล้มเหลวเกือบสมบูรณ์เมื่อเจอวัสดุสะท้อนแสงหรือโปร่งใส
รากเหง้าของปัญหามักไม่ได้อยู่ที่การนำโค้ดไปปฏิบัติ แต่กลับอยู่ที่ข้อมูล
นี่ไม่ใช่กรณีเฉพาะ แต่เป็นหนึ่งในความท้าทายที่แวดวงนี้เผชิญมายาวนาน ความก้าวหน้าทางวิชาการด้านการประมาณความลึกและการเติมเต็มความลึก ถูกจำกัดอย่างมากโดยเพดานของชุดข้อมูลที่มีให้ใช้ ในทศวรรษที่ผ่านมา ชุมชนวิจัยพึ่งพาชุดข้อมูลคลาสสิกเพียงไม่กี่ชุดเป็นหลัก: NYU Depth V2 ครอบคลุมเฉพาะฉากในร่มเช่นอพาร์ตเมนต์และออฟฟิศ; KITTI มุ่งเน้นเฉพาะฉากถนนกลางแจ้งสำหรับการขับขี่อัตโนมัติ ซึ่งช่วยเหลือการประยุกต์ใช้ปัญญาประดิษฐ์เชิงรูปธรรมได้จำกัด; ScanNet ออกแบบมาสำหรับการสร้างภาพสามมิติภายในอาคาร โดยรูปแบบลำดับเฟรมไม่ได้ถูกปรับให้เหมาะกับงานฝึกฝนความลึกแบบจับคู่; ชุดข้อมูลอย่าง ETH3D, DIML ต่างก็มีจุดเน้นเฉพาะ แต่ขนาดล้วนไม่เพียงพอต่อความต้องการฝึกฝนในยุคของโมเดลขนาดใหญ่
แม้ข้อมูลสังเคราะห์จะช่วยบรรเทาการขาดแคลนข้อมูลได้ในระดับหนึ่ง แต่ความแตกต่างของวัสดุที่เรนเดอร์กับฉากจริงนั้นสามารถสังเกตเห็นได้ด้วยตาเปล่า ความรู้เบื้องต้นที่โมเดลเรียนรู้จากข้อมูลสังเคราะห์ มักจะลดประสิทธิภาพลงอย่างรวดเร็วเมื่อเผชิญกับโลหะสะท้อนแสง กระจกใส หรือพื้นผิวที่มีลวดลายซับซ้อนในโลกแห่งความเป็นจริง
เพื่อเชื่อมช่องว่างนี้อย่างเป็นระบบ ข้อมูลจากฉากจริงขนาดใหญ่จึงมีความสำคัญอย่างยิ่ง ปลายเดือนมีนาคมที่ผ่านมา สถานการณ์นี้ก็เริ่มเปลี่ยนไป
Ant Lingbo ได้เปิดตัวชุดข้อมูล RGB-D ขนาดใหญ่ชื่อ LingBot-Depth-Dataset ซึ่งประกอบด้วยตัวอย่างข้อมูล RGB-ความลึกคุณภาพสูงประมาณ 3 ล้านคู่ แต่ละข้อมูลประกอบด้วยภาพ RGB ภาพความลึกดิบจากเซ็นเซอร์ และภาพความลึกค่าจริงที่สอดคล้องกัน เพื่อให้สัญญาณกำกับดูแลที่สมบูรณ์สำหรับการฝึกโมเดล
ชุดข้อมูลมีขนาดรวม 2.71TB โดยมีข้อมูล RGB-D ที่เก็บรวบรวมจริงประมาณ 2 ล้านคู่ และข้อมูลเรนเดอร์คุณภาพสูง 1 ล้านคู่ ส่วนข้อมูลจริงครอบคลุมกล้องวัดความลึกหลักในตลาด 6 รุ่น ได้แก่ Orbbec 335/335L และ Intel RealSense D405/D415/D435/D455 โดยมีเป้าหมายเพื่อสะท้อนการกระจายตัวของการรับรู้จริงภายใต้เงื่อนไขฮาร์ดแวร์ที่หลากหลายให้มากที่สุด
ชุดข้อมูลนี้เปิดตัวภายใต้สัญญาอนุญาต CC BY-NC-SA 4.0 อนุญาตให้ใช้และสร้างสรรค์ใหม่ได้อย่างอิสระสำหรับการวิจัยทางวิชาการและการใช้งานที่ไม่ใช่เชิงพาณิชย์

- ModelScope Community: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
- HuggingFace: https://huggingface.co/datasets/robbyant/mdm_depth
ประสิทธิภาพของชุดข้อมูลนี้ได้รับการยืนยันแล้วในระดับโมเดล LingBot-Depth โมเดลการรับรู้ปัญญาประดิษฐ์เชิงรูปธรรมที่ Ant Lingbo เปิดตัวในเดือนมกราคมปีนี้ ก็ถูกฝึกฝนด้วยชุดข้อมูลนี้ ผลลัพธ์จริงแสดงให้เห็นว่าโมเดลนี้สามารถปรับปรุงคุณภาพการประมาณความลึกในฉากที่มีวัสดุซับซ้อนเช่นโปร่งใสหรือสะท้อนแสงได้อย่างมีนัยสำคัญ โดยไม่ต้องเปลี่ยนฮาร์ดแวร์ ในสองตัวชี้วัดหลักคือความแม่นยำของความลึกและความครอบคลุมของพิกเซล โมเดลนี้ทำงานได้ดีกว่าผลลัพธ์จากกล้อง RGB-D ระดับอุตสาหกรรมชั้นนำในตลาดปัจจุบันอย่างสมบูรณ์
จากพื้นฐานนี้ Ant Lingbo จึงตัดสินใจเปิดตัวชุดข้อมูลที่ผ่านการตรวจสอบภายในนี้ทั้งหมด ให้ชุมชนได้ใช้

(คำบรรยายภาพ: โมเดล LingBot-Depth ที่ฝึกด้วย LingBot-Depth-Dataset ยังคงสามารถให้ผลลัพธ์ความลึกที่มีความแม่นยำสูงและสเกลจริงได้ ในฉากซับซ้อนที่เซ็นเซอร์วัดความลึกแบบดั้งเดิมมักล้มเหลว)
ลิงก์ที่เกี่ยวข้องกับ LingBot-Depth:
* Hugging Face: https://huggingface.co/robbyant/lingbot-depth
* ModelScope: https://modelscope.cn/models/robbyant/lingbot-depth
* รายงานทางเทคนิค: https://arxiv.org/abs/2601.17895
ทำไมข้อมูลจริงขนาดใหญ่จึงสำคัญมาก?
เพื่อเข้าใจคุณค่าของ LingBot-Depth-Dataset ต้องเข้าใจสาเหตุที่การได้มาซึ่งข้อมูลความลึกจริงคุณภาพสูงทำได้ยาก:
- ต้นทุนการเก็บรวบรวมสูง: การเก็บรวบรวมข้อมูล RGB-D คุณภาพสูง ต้องมีการซิงโครไนซ์เวลาและการปรับเทียบตำแหน่งระหว่างกล้อง RGB กับเซ็นเซอร์วัดความลึกอย่างแม่นยำ ความแม่นยำในการปรับเทียบส่งผลโดยตรงต่อคุณภาพการจัดเรียงภาพความลึกกับภาพสี การเก็บรวบรวมอย่างเป็นระบบในหลายฉากขนาดใหญ่ มีความซับซ้อนทางวิศวกรรมสูงกว่าการบันทึกวิดีโอทั่วไปมาก
- ภาพความลึกดิบจากเซ็นเซอร์มีข้อบกพร่องโดยธรรมชาติ: ภาพความลึกดิบที่ได้จากเซ็นเซอร์โครงสร้างแสงและ ToF มักมีพิกเซลที่ไม่ถูกต้อง (รู) จำนวนมาก จุดรบกวนบริเวณขอบ และล้มเหลวบนพื้นผิวสะท้อนแสงหรือโปร่งใส จึงไม่สามารถใช้เป็นค่าจริงสำหรับการฝึกได้โดยตรง การสร้างภาพความลึกค่าจริงที่หนาแน่นและแม่นยำนั้นเป็นความท้าทายทางเทคนิคในตัวมันเอง
- การได้มาซึ่งป้ายกำกับค่าจริงทำได้ยาก: ค่าความลึกจริงต้องอาศัยการวัดทางกายภาพหรือการผสานเซ็นเซอร์หลายตัว LiDAR มีความแม่นยำสูงแต่คลาวด์จุดเบาบาง ระบบโครงสร้างแสงไวต่อแสง การจับคู่ภาพสเตอริโอล้มเหลวได้ง่ายในบริเวณที่ขาดลายพื้นผิว การเก็บรวบรวมขนาดใหญ่ต้องประนีประนอมระหว่างความแม่นยำ ต้นทุน และความครอบคลุม
- ข้อจำกัดด้านลิขสิทธิ์และความเต็มใจเปิดเผย: ข้อมูลที่เก็บรวบรวมโดยภาคอุตสาหกรรมมักถูกมองว่าเป็นข้อได้เปรียบในการแข่งขันมากกว่าเป็นทรัพยากรสาธารณะ ส่งผลให้เกิดช่องว่างใหญ่ระหว่างความต้องการข้อมูลของแวดวงวิชาการกับการปิดกั้นข้อมูลของภาคอุตสาหกรรม
ด้วยเหตุผลดังกล่าว ชุดข้อมูล RGB-D จากฉากจริงขนาดใหญ่จึงเป็นทรัพยากรที่หายากเสมอในชุมชนโอเพนซอร์ส
3 ล้านคู่ RGB-D: การก้าวกระโดดของขนาดข้อมูล
ตัวอย่าง RGB-D 3 ล้านคู่ที่ Ant Lingbo เปิดตัว เป็นหนึ่งในชุดข้อมูล RGB-D จากฉากจริงที่ใหญ่ที่สุดในชุมชนโอเพนซอร์สในปัจจุบัน ชุดข้อมูลนี้ไม่ได้เป็นการรวมกันอย่างง่าย แต่ได้รับการออกแบบอย่างมีโครงสร้างรอบๆ งานการรับรู้ความลึกในโลกจริง ประกอบด้วยสี่ชุดย่อย:
- RobbyReal: ข้อมูลฉากในร่มจริงที่เก็บรวบรวมด้วยอุปกรณ์หลายชนิด 1,400,000 คู่ เป็นแกนกลางของชุดข้อมูล ครอบคลุมกล้องวัดความลึกหลัก 6 รุ่นที่กล่าวมา โดยมีเป้าหมายเพื่อนำความแตกต่างของช่วงการวัด รูปแบบสัญญาณรบกวน การแสดงผลขอบ ฯลฯ ของอุปกรณ์ต่างๆ เข้าสู่การกระจายตัวสำหรับการฝึกฝนตั้งแต่แรก ซึ่งจะช่วยเพิ่มความสามารถในการปรับตัวข้ามฮาร์ดแวร์ของโมเดล สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับโมเดลที่ต้องนำไปใช้งานจริงในสภาพแวดล้อมฮาร์ดแวร์ที่หลากหลาย เช่น หุ่นยนต์ อุปกรณ์ AR เป็นต้น

(คำบรรยายภาพ: ตัวอย่างชุดข้อมูล RobbyReal)
- RobbyVla: ข้อมูล 580,960 คู่ เก็บรวบรวมจากกระบวนการปฏิบัติงานจริงของหุ่นยนต์ที่ดำเนินการทำงานด้านการมองเห็น-ภาษา-การกระทำ มุมมองของข้อมูลนี้แตกต่างจากชุดข้อมูลแบบดั้งเดิมโดยสิ้นเชิง: ระยะถ่ายใกล้กว่า (20-50 ซม.) ต้องการความแม่นยำของความลึกบริเวณขอบวัตถุสูงมาก และมีวัสดุที่วัดความลึกได้ยาก (โลหะ กระจก พลาสติกโปร่งใส) ที่พบบ่อยในการทำงานบนโต๊ะจำนวนมาก
คุณลักษณะเหล่านี้ทำให้ชุดข้อมูล RobbyVla มีคุณค่าที่ชุดข้อมูลที่มีอยู่ยากจะทดแทนได้: ข้อมูลของมันถูกเก็บรวบรวมภายใต้ข้อจำกัดของงานหุ่นยนต์เชิงรูปธรรมจริง การกระจายตัวของฉากสอดคล้องกับงานการเรียนรู้ของหุ่นยนต์เป็นอย่างดี สำหรับนักวิจัยที่มุ่งฝึกฝนความสามารถในการรับรู้พื้นที่เพื่อบริการงานการจัดการ ชุดข้อมูลนี้สามารถลดการสูญเสียประสิทธิภาพของโมเดลเมื่อต้องปรับตัวนอกการกระจายตัวได้โดยตรง

ตัวอย่างชุดข้อมูล RobbyVla
RobbySim เป็นชุดข้อมูลเรนเดอร์จำลองที่ประกอบด้วยข้อมูล 999,264 คู่ โดยข้อมูลถูกสร้างขึ้นจากมุมมองกล้องคู่ ซึ่งแตกต่างจากการเรนเดอร์ด้วยกล้องเดี่ยวที่อาจนำอคติเชิงระบบจากมุมมองเข้ามา การตั้งค่ากล้องคู่สร้างภาพความลึกที่มีความสอดคล้องทางเรขาคณิตที่น่าเชื่อถือมากกว่า ผ่านข้อจำกัดด้านพารัลแลกซ์

ตัวอย่างชุดข้อมูล RobbySim
นอกจากนี้ ชุดตรวจสอบ RobbySimVal (38,976 คู่) ได้จัดเตรียมเกณฑ์มาตรฐานสำหรับการประเมินฉากจำลอง ช่วยให้นักวิจัยสามารถประเมินประสิทธิภาพของโมเดลในโดเมนจำลองได้อย่างรวดเร็ว โดยไม่ต้องใช้ข้อมูลจริง

ตัวอย่างชุดตรวจสอบ RobbySimVal
นอกจากขนาดข้อมูลที่ใหญ่แล้ว ชุดข้อมูลนี้ยังกำหนดมาตรฐานคุณภาพสูงด้วย ตั้งแต่การเก็บรวบรวมดิบจนถึงการสร้างค่าจริง ทีมวิจัยไม่ได้พึ่งพาผลลัพธ์ดิบจากเซ็นเซอร์อย่างง่ายๆ แต่ได้ดำเนินการประมวลผลและแก้ไขข้อมูลความลึกอย่างเป็นระบบ
แต่ละตัวอย่างข้อมูลประกอบด้วยภาพ RGB หนึ่งภาพ ภาพความลึกดิบจากเซ็นเซอร์หนึ่งภาพ และภาพความลึกค่าจริงที่ผ่านการแก้ไขแล้วหนึ่งภาพ การจัดเตรียมการเปรียบเทียบที่สมบูรณ์ระหว่าง “การสังเกตดิบ” กับ “ค่าจริง” ทำให้โมเดลไม่เพียงเรียนรู้การทำนายความลึก แต่ยังเรียนรู้วิธีกู้คืนโครงสร้างจริงจากข้อมูลที่มีสัญญาณรบกวน
ในขณะเดียวกัน ข้อมูลในกระบวนการติดป้ายกำกับได้ปฏิบัติตามมาตรฐานเดียวกัน มีการควบคุมความแม่นยำและความสม่ำเสมออย่างเข้มงวด ซึ่งหลีกเลี่ยงอคติในการฝึกที่เกิดจากสัญญาณรบกวนของป้ายกำกับได้อย่างมีประสิทธิภาพ สิ่งนี้มีความสำคัญอย่างยิ่งในการเรียนรู้เชิงลึก โดยป้ายกำกับความลึกที่ผิดพลาดมักสร้างความเสียหายมากกว่าไม่มีป้ายกำด้วยซ้ำ
ด้วยการรับประกันทั้งปริมาณและคุณภาพนี้ คุณค่าของชุดข้อมูลจึงเกินขอบเขตของ “ชุดข้อมูลที่ใช้ได้” และมีความหมายพื้นฐานมากขึ้น ในช่วงหลายปีที่ผ่านมา จุดสนใจของอุตสาหกรรมส่วนใหญ่มุ่งเน้นไปที่ตัวโมเดลเอง – พารามิเตอร์ที่มากขึ้น โครงสร้างที่ซับซ้อนขึ้น ความสามารถในการอนุมานที่แข็งแกร่งขึ้น อย่างไรก็ตาม ฉันทามติที่ชัดเจนขึ้นเรื่อยๆ คือ: ขีดจำกัดความสามารถของโมเดลกำลังถูกกำหนดโดยข้อมูลมากขึ้นเรื่อยๆ โดยเฉพาะอย่างยิ่งเมื่อ AI ก้าวจากโลกดิจิทัลสู่โลกกายภาพ ความสำคัญของข้อมูลถูกขยายใหญ่ขึ้น: โมเดลโลกต้องการข้อมูลสภาพแวดล้อมที่โต้ตอบได้ หุ่นยนต์พึ่งพาการกระจายตัวของฉากที่ยาว尾และเป็นจริง ระบบหลายโหมดต้องจัดเรียงสัญญาณจากช่องทางการรับรู้ที่แตกต่างกัน ในบริบทนี้ ชุดข้อมูลขนาดใหญ่ คุณภาพสูง และมีโครงสร้าง กำลังกลายเป็นแกนกลางการแข่งขันใหม่
การปรากฏตัวของชุดข้อมูลนี้ ก่อให้เกิดการเปลี่ยนแปลงในระดับพื้นฐานมากขึ้นในทางปฏิบัติ: มันทำให้การรับรู้ความลึกค่อยๆ ก้าวจากปัญหาที่ต้องพึ่งพาเงื่อนไขในอุดมคติในห้องปฏิบัติการ สู่ปัญหาทางวิศวกรรมที่สามารถนำไปปฏิบัติและนำกลับมาใช้ใหม่ได้
แวดวงการประมาณความลึกและการเติมเต็มความลึกเผชิญกับภาวะกลืนไม่เข้าคายไม่ออกมายาวนาน: ความต้องการปลายทาง (เช่น หุ่นยนต์, AR, การขับขี่อัตโนมัติ) เติบโตอย่างรวดเร็ว แต่ระดับการเปิดกว้างของทรัพยากรข้อมูลพื้นฐานนั้นห่างไกลจากแวดวงการจดจำรูปภาพหรือการประมวลผลภาษาธรรมชาติ ชุดข้อมูล NYUv2 ยังคงเป็นชุดทดสอบมาตรฐานหลังจากผ่านไปกว่า 10 ปี ส่วนหนึ่งเป็นเพราะขาดทางเลือกที่ดีกว่า ไม่ใช่เพราะตัวมันเองสมบูรณ์เพียงพอแล้ว
ดังที่ ImageNet ปรับโฉมการมองเห็นด้วยคอมพิวเตอร์ สภาพแวดล้อมจำลองขับเคลื่อนการพัฒนาการขับขี่อัตโนมัติ สำหรับปัญญาประดิษฐ์เชิงรูปธรรมแล้ว ข้อมูลการรับรู้พื้นที่คุณภาพสูงอาจเป็นช่องว่างสำคัญที่ยังไม่ได้รับการเติมเต็มอย่างเพียงพอ ชุดข้อมูลนี้มีศักยภาพที่จะกลายเป็นพื้นฐานมาตรฐานรุ่นใหม่สำหรับแวดวงการประมาณความลึกและการเติมเต็มความลึก
การเปิดตัวอาจไม่นำมาซึ่งการก้าวกระโดดของประสิทธิภาพในทันที แต่มันกำลังเปลี่ยนแปลงพื้นฐานระดับล่างกว่า: ในที่สุดเราก็เริ่มมีข้อมูลความลึกคุณภาพสูงที่ใกล้เคียงกับโลกแห่งความเป็นจริงพอสมควร การลงทุนด้านโอเพนซอร์สในโครงสร้างพื้นฐานนี้ ทำให้ทีมวิจัยต่อๆ ไปไม่ต้องเริ่มต้นเก็บรวบรวมข้อมูลจากศูนย์ และสามารถทุ่มเทความพยายามไปที่การสำรวจปัญหาระดับสูงขึ้นได้
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27931
