AI มองไม่เห็นในเวลากลางคืนด้วยมุมมองบุคคลที่หนึ่ง? เกณฑ์มาตรฐาน EgoNight เผยความสามารถในการเข้าใจของโมเดลขนาดใหญ่ลดลงอย่างมากในเวลากลางคืน

2 hours ago • การประเมินโมเดลขนาดใหญ่ • 11 views

มนุษย์เดินในเวลากลางคืน แม้แสงสลัวก็ยังจำคนรู้จักและหลบสิ่งกีดขวางได้

แต่โมเดลการมองเห็นจากมุมมองบุคคลที่หนึ่งของ AI เมื่อถึงเวลากลางคืนกลับ “มองไม่เห็น” โดยสิ้นเชิง

แสงสลัว การสะท้อนแสง สัญญาณรบกวน ภาพเบลอจากการเคลื่อนไหว รวมถึงการสั่นไหวและการบดบังของอุปกรณ์สวมใส่… ทำให้ความเข้าใจทางภาพในเวลากลางคืนมีความยากเพิ่มขึ้นเป็นเท่าตัว

นักวิจัยจาก INSAIT, มหาวิทยาลัยครุศาสตร์ตะวันออกจีน, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (กวางโจว), มหาวิทยาลัยหนานไค, มหาวิทยาลัยฟู่ตั้น และสถาบันอื่นๆ เสนอเกณฑ์มาตรฐาน EgoNight ซึ่งมุ่งเน้นอย่างเป็นระบบในประเด็น ความเข้าใจทางภาพจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน ที่ถูกมองข้ามมาเป็นเวลานาน และได้รับการตีพิมพ์ใน ICLR 2026

AI มองไม่เห็นในเวลากลางคืนด้วยมุมมองบุคคลที่หนึ่ง? เกณฑ์มาตรฐาน EgoNight เผยความสามารถในการเข้าใจของโมเดลขนาดใหญ่ลดลงอย่างมากในเวลากลางคืน

มันรวมวิดีโอที่จัดแนวระหว่างกลางวันและกลางคืน การประเมินคำถาม-คำตอบในเวลากลางคืน การประมาณความลึก และการค้นคืนข้ามสภาพแสงไว้ในเกณฑ์มาตรฐานชุดเดียวกัน ทำให้นักวิจัยสามารถตอบได้อย่างแท้จริงว่า:

โมเดลหลายรูปแบบที่มีอยู่ในปัจจุบัน เมื่อถึงเวลากลางคืน เหลือความสามารถในการเข้าใจมากน้อยเพียงใด?

สามประเด็นสำคัญ:

เกณฑ์มาตรฐานภาพรวมแรกสำหรับการมองเห็นจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน โดยภารกิจหลักคือ EgoNight-VQA
ใช้วิดีโอที่จัดแนวระหว่างกลางวันและกลางคืนเพื่อปรับปรุงคุณภาพการติดป้ายกำกับ ครอบคลุมวิดีโอ 90 ชุด, คำถาม-คำตอบ 3658 กลุ่ม, และคำถาม 12 ประเภท
โมเดลภาษาขนาดใหญ่หลายรูปแบบที่มีอยู่ในปัจจุบันเมื่อย้ายจากกลางวันไปกลางคืนมักจะประสิทธิภาพลดลงอย่างเห็นได้ชัด การรับรู้และการให้เหตุผลในเวลากลางคืนยังห่างไกลจากการแก้ไข

ทำไม “การมองเห็นจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน” จึงสำคัญ?

ในช่วงไม่กี่ปีที่ผ่านมา การมองเห็นจากมุมมองบุคคลที่หนึ่งได้รับความนิยมอย่างรวดเร็วในด้านแว่นตาอัจฉริยะ ผู้ช่วยสวมใส่ได้ หุ่นยนต์ที่มีตัวตน และการเรียนรู้ของหุ่นยนต์ แต่เกณฑ์มาตรฐานที่เกี่ยวข้องส่วนใหญ่สร้างขึ้นจากสถานการณ์ในเวลากลางวัน

การตั้งค่านี้ดูเหมือนเป็นธรรมชาติ แต่จริงๆ แล้วหลีกเลี่ยงส่วนที่ยุ่งยากที่สุดในโลกแห่งความเป็นจริง: เวลากลางคืนไม่ได้เป็นเพียงแค่ “ลดความสว่างลง” เท่านั้น แต่ยังเปลี่ยนการมองเห็นเป้าหมาย รายละเอียดพื้นผิว การกระจายแสง ช่วงไดนามิก และความเสถียรของลำดับเวลาไปพร้อมกัน

สำหรับวิดีโอมุมมองบุคคลที่หนึ่ง ปัญหาเหล่านี้จะถูกขยายเพิ่มเติมจากปัจจัยต่างๆ เช่น การบดบังด้วยมือ การเคลื่อนไหวของมุมมองที่รวดเร็ว และระยะการโต้ตอบที่ใกล้

ด้วยเหตุนี้ โมเดลจำนวนมากที่ทำงานได้ดีในเวลากลางวัน เมื่อถึงเวลากลางคืนไม่ได้ “แย่ลงเล็กน้อย” แต่จะเสื่อมถอยลงพร้อมกันในความสามารถพื้นฐาน เช่น การจดจำวัตถุ การอ่านข้อความ การตัดสินการกระทำ และการระบุตำแหน่งเชิงพื้นที่

คุณค่าของ EgoNight ประการแรกคือทำให้ปัญหาที่ถูกหลีกเลี่ยงมานานนี้กลายเป็นหัวข้อวิจัยที่สามารถวัดผลได้อย่างเป็นระบบ เปรียบเทียบได้อย่างยุติธรรม และสามารถผลักดันต่อไปได้อย่างต่อเนื่อง

EgoNight: การนำ “การจัดแนวระหว่างกลางวันและกลางคืน” เข้าสู่เกณฑ์มาตรฐานบุคคลที่หนึ่ง

ข้อสังเกตที่แข็งแกร่งประการหนึ่งของงานนี้คือ วิดีโอในเวลากลางคืนนั้นยากต่อการติดป้ายกำกับโดยตรง

ไม่ใช่แค่โมเดลเท่านั้น แม้แต่มนุษย์ที่ทำการติดป้ายกำกับในคลิปเวลากลางคืนล้วนๆ ก็มักจะสร้างคำถาม-คำตอบที่มีคุณภาพได้อย่างไม่เสถียร

เพื่อแก้ปัญหานี้ ผู้เขียนไม่ได้เพียงแค่เพิ่มปริมาณการเก็บข้อมูล แต่ได้นำ “วิดีโอที่จัดแนวระหว่างกลางวันและกลางคืน” มาเป็นแกนหลักในการออกแบบเกณฑ์มาตรฐานทั้งหมด

ในสถานการณ์ การกระทำ และเส้นเวลาเดียวกันหรือที่จัดแนวอย่างสูง จะเก็บรักษาทั้งเวอร์ชันกลางวันและกลางคืนไว้ จากนั้นใช้ข้อมูลอ้างอิงในเวลากลางวันเพื่อช่วยในการสร้างคำถาม-คำตอบในเวลากลางคืน

ตามแนวคิดนี้ EgoNight ประกอบด้วยชุดข้อมูลย่อยสามชุด: EgoNight-Sofia ที่เก็บรวบรวมจริง, EgoNight-Synthetic ที่สร้างจาก Blender/Infinigen และคลิปเวลากลางคืนจาก Oxford Day-and-Night

จากข้อมูลเหล่านี้ ผู้เขียนได้สร้างคำถาม-คำตอบ 3658 กลุ่ม ครอบคลุมคำถาม 12 ประเภท และใช้เวลามากกว่า 300 ชั่วโมงในการตรวจสอบด้วยมนุษย์

ที่สำคัญกว่านั้น กระบวนการติดป้ายกำกับทั้งหมดได้รับการออกแบบอย่างชัดเจน: ขั้นแรกสร้างคำอธิบายในเวลากลางคืน จากนั้นสร้างคำถามที่เป็นไปได้ ต่อจากนั้นนำข้อมูลอ้างอิงในเวลากลางวันมาใช้เพื่อปรับปรุงคำตอบ และสุดท้ายให้มนุษย์ปรับแต่งทีละรายการ

ข้อดีของวิธีนี้คือ การติดป้ายกำกับในเวลากลางคืนไม่ได้ขึ้นอยู่กับ “การเดาว่ามีอะไรอยู่ในที่มืด” อีกต่อไป แต่ถูกวางกลับเข้าไปในความสัมพันธ์การเปรียบเทียบข้ามสภาพแสงที่เชื่อถือได้มากขึ้น

การออกแบบภารกิจ: จาก “การมองเห็น” สู่ “ความเข้าใจ”

EgoNight-VQA ไม่ได้รวมคำถามทั้งหมดเป็นชุดใหญ่ แต่จงใจแยกภารกิจออกเป็นสองประเภท

ประเภทแรกคือคำถาม-คำตอบแบบคู่ที่สามารถเปรียบเทียบระหว่างกลางวันและกลางคืนได้โดยตรง เช่น การจดจำวัตถุ การจดจำข้อความ การจดจำการกระทำ ฯลฯ ภารกิจเหล่านี้สามารถบอกเราได้โดยตรงว่าในสถานการณ์เดียวกันและคำถามประเภทเดียวกัน ประสิทธิภาพจะลดลงเท่าใดระหว่างกลางวันและกลางคืน

ประเภทที่สองคือคำถาม-คำตอบแบบไม่จับคู่ที่เป็นเอกลักษณ์หรือเหมาะสมกว่าสำหรับเวลากลางคืน เช่น การจดจำแสง การเปลี่ยนแปลงของแสง การตรวจจับวัตถุที่เคลื่อนไหว การให้เหตุผลที่ไม่ใช่สามัญสำนึก ฯลฯ เพื่อจับจุดยากที่โดดเด่นในสภาพแสงน้อยเท่านั้น

นอกจากนี้ เกณฑ์มาตรฐานนี้ไม่ได้ทดสอบแค่ “คำถาม-คำตอบสั้นๆ” เท่านั้น

คำถามบางข้อต้องการเพียงไม่กี่เฟรมในการตอบ ในขณะที่บางข้อกำหนดให้โมเดลเข้าใจข้อมูลลำดับเวลาของวิดีโอทั้งหมด

นอกเหนือจาก VQA แล้ว บทความยังขยายภารกิจเสริมอีกสองภารกิจ: การประมาณความลึกจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน และการค้นคืนที่สอดคล้องระหว่างกลางวันและกลางคืน

ภารกิจแรกมุ่งเน้นว่าการรับรู้ทางเรขาคณิตจะไม่เสถียรในสภาพแสงน้อยหรือไม่ ส่วนภารกิจที่สองมุ่งเน้นว่าโมเดลสามารถจับคู่สถานการณ์กลางวันและกลางคืนได้หรือไม่ แม้จะมีความแตกต่างของความสว่างมาก

กล่าวคือ EgoNight กำลังถามคำถามสามระดับพร้อมกัน: โมเดลยังมองเห็นได้ชัดเจนหรือไม่ ยังสามารถจัดแนวได้หรือไม่ และยังสามารถให้เหตุผลได้หรือไม่

ผลการทดลอง: โมเดลขนาดใหญ่ “ตาบอดร่วมกัน” ในเวลากลางคืน

ตารางอันดับที่เผยแพร่ในหน้าโครงการแสดงให้เห็นถึงปัญหา: ใน EgoNight-VQA ความแม่นยำเฉลี่ยของ GPT-4.1 และ Gemini 2.5 Pro อยู่ที่ 30.93% และ 30.60% ตามลำดับ ซึ่งเป็นหนึ่งในโมเดลที่ดีที่สุดในปัจจุบัน แต่ยังห่างไกลจาก “ความน่าเชื่อถือและการใช้งานได้”

ที่สำคัญกว่านั้น บทความไม่ได้เปรียบเทียบว่าใครสูงกว่ากัน แต่แยกการย้ายระหว่างกลางวันและกลางคืนออกมาดู: โมเดลเกือบทั้งหมดเมื่อย้ายจากกลางวันไปกลางคืนจะประสิทธิภาพลดลงอย่างมีนัยสำคัญ และภารกิจที่ขับเคลื่อนด้วยการรับรู้มักจะลดลงมากกว่าภารกิจที่เน้นการให้เหตุผล

ซึ่งหมายความว่าคอขวดของความเข้าใจในเวลากลางคืน ยังคงติดอยู่ที่ “สัญญาณภาพไม่เสถียรเพียงพอ” เป็นอันดับแรก

ในขณะเดียวกัน คำถามประเภทใหม่ที่ผู้เขียนเสนอ เช่น การจดจำแสง การเปลี่ยนแปลงของแสง การตรวจจับสถานการณ์ที่ไม่ใช่สามัญสำนึก มักจะยากกว่าคำถาม-คำตอบทั่วไป ซึ่งแสดงให้เห็นว่าแม้โมเดลจะสามารถอ่านภาพได้อย่างยากลำบาก แต่ก็อาจไม่ได้สร้างความเข้าใจสภาพแวดล้อมในเวลากลางคืนอย่างแท้จริง

การเสื่อมถอยที่คล้ายกันยังปรากฏในภารกิจเสริม: ไม่ว่าจะเป็นการประมาณความลึกหรือการค้นคืนที่สอดคล้องระหว่างกลางวันและกลางคืน แสงน้อยจะลดความสามารถในการจับคู่ทางเรขาคณิตและข้ามเงื่อนไขอย่างชัดเจน

จะปรับปรุงอย่างไร?

เพื่อสำรวจเพิ่มเติมว่า “ปัญหาอยู่ที่ไหน” ผู้เขียนได้ทำการทดลองปรับแต่งอย่างเป็นระบบโดยใช้ Qwen2.5-VL-7B

ผลลัพธ์แสดงให้เห็นว่าการปรับแต่งทั้งหมดนำมาซึ่งการปรับปรุงโดยรวมที่ชัดเจนที่สุด โดยมีกำไรสัมบูรณ์ 9.21% เมื่อเทียบกับเส้นฐานแบบ zero-shot

หากปรับแต่งตัวเข้ารหัสภาพเป็นหลัก ผลประโยชน์จะเน้นไปที่ภารกิจการรับรู้ เช่น วัตถุและข้อความ

ในขณะที่การปรับแต่งส่วนโมเดลภาษาสามารถปรับปรุงทั้งการรับรู้และการให้เหตุผล ซึ่งบ่งชี้ว่าความเข้าใจในเวลากลางคืนไม่เพียงได้รับผลกระทบจากการเสื่อมถอยของภาพเท่านั้น แต่ยังเกี่ยวข้องอย่างใกล้ชิดกับวิธีที่โมเดลใช้ความรู้ภาษาก่อนหน้า

ข้อค้นพบที่น่าสนใจอีกประการหนึ่งคือประสิทธิผลของการถ่ายโอนจากข้อมูลสังเคราะห์สู่โลกจริง: การฝึกด้วยข้อมูลสังเคราะห์ในเวลากลางคืนเพียงอย่างเดียวก็สามารถถ่ายโอนไปยังสถานการณ์กลางคืนจริงได้

สิ่งนี้สำคัญมากสำหรับทิศทางนี้ เนื่องจากต้นทุนการเก็บรวบรวมและการติดป้ายกำกับข้อมูลคุณภาพสูงในเวลากลางคืนสูงมาก และหากข้อมูลสังเคราะห์สามารถรับภาระการปรับตัวบางส่วนได้ ก็หมายความว่าการวิจัยการมองเห็นในเวลากลางคืนมีเส้นทางที่ขยายได้มากขึ้นในที่สุด

ผลลัพธ์ภาพเพิ่มเติม ข้อมูล ทางเข้าเกณฑ์มาตรฐาน และตัวอย่างโต้ตอบของ EgoNight สามารถดูได้โดยตรงในหน้าโครงการ

ที่อยู่บทความ: https://arxiv.org/abs/2510.06218
หน้าโครงการ: https://dehezhang2.github.io/EgoNight/
โค้ด: https://github.com/dehezhang2/EgoNight
ข้อมูล: https://huggingface.co/datasets/dehezhang2/EgoNight
ตัวอย่างโครงการ: https://dehezhang2.github.io/EgoNight/benchmark.html

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง