มนุษย์เดินในเวลากลางคืน แม้แสงสลัวก็ยังจำคนรู้จักและหลบสิ่งกีดขวางได้
แต่โมเดลการมองเห็นจากมุมมองบุคคลที่หนึ่งของ AI เมื่อถึงเวลากลางคืนกลับ “มองไม่เห็น” โดยสิ้นเชิง
แสงสลัว การสะท้อนแสง สัญญาณรบกวน ภาพเบลอจากการเคลื่อนไหว รวมถึงการสั่นไหวและการบดบังของอุปกรณ์สวมใส่… ทำให้ความเข้าใจทางภาพในเวลากลางคืนมีความยากเพิ่มขึ้นเป็นเท่าตัว
นักวิจัยจาก INSAIT, มหาวิทยาลัยครุศาสตร์ตะวันออกจีน, มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (กวางโจว), มหาวิทยาลัยหนานไค, มหาวิทยาลัยฟู่ตั้น และสถาบันอื่นๆ เสนอเกณฑ์มาตรฐาน EgoNight ซึ่งมุ่งเน้นอย่างเป็นระบบในประเด็น ความเข้าใจทางภาพจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน ที่ถูกมองข้ามมาเป็นเวลานาน และได้รับการตีพิมพ์ใน ICLR 2026

มันรวมวิดีโอที่จัดแนวระหว่างกลางวันและกลางคืน การประเมินคำถาม-คำตอบในเวลากลางคืน การประมาณความลึก และการค้นคืนข้ามสภาพแสงไว้ในเกณฑ์มาตรฐานชุดเดียวกัน ทำให้นักวิจัยสามารถตอบได้อย่างแท้จริงว่า:
โมเดลหลายรูปแบบที่มีอยู่ในปัจจุบัน เมื่อถึงเวลากลางคืน เหลือความสามารถในการเข้าใจมากน้อยเพียงใด?
สามประเด็นสำคัญ:
- เกณฑ์มาตรฐานภาพรวมแรกสำหรับการมองเห็นจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน โดยภารกิจหลักคือ EgoNight-VQA
- ใช้วิดีโอที่จัดแนวระหว่างกลางวันและกลางคืนเพื่อปรับปรุงคุณภาพการติดป้ายกำกับ ครอบคลุมวิดีโอ 90 ชุด, คำถาม-คำตอบ 3658 กลุ่ม, และคำถาม 12 ประเภท
- โมเดลภาษาขนาดใหญ่หลายรูปแบบที่มีอยู่ในปัจจุบันเมื่อย้ายจากกลางวันไปกลางคืนมักจะประสิทธิภาพลดลงอย่างเห็นได้ชัด การรับรู้และการให้เหตุผลในเวลากลางคืนยังห่างไกลจากการแก้ไข
ทำไม “การมองเห็นจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน” จึงสำคัญ?

ในช่วงไม่กี่ปีที่ผ่านมา การมองเห็นจากมุมมองบุคคลที่หนึ่งได้รับความนิยมอย่างรวดเร็วในด้านแว่นตาอัจฉริยะ ผู้ช่วยสวมใส่ได้ หุ่นยนต์ที่มีตัวตน และการเรียนรู้ของหุ่นยนต์ แต่เกณฑ์มาตรฐานที่เกี่ยวข้องส่วนใหญ่สร้างขึ้นจากสถานการณ์ในเวลากลางวัน
การตั้งค่านี้ดูเหมือนเป็นธรรมชาติ แต่จริงๆ แล้วหลีกเลี่ยงส่วนที่ยุ่งยากที่สุดในโลกแห่งความเป็นจริง: เวลากลางคืนไม่ได้เป็นเพียงแค่ “ลดความสว่างลง” เท่านั้น แต่ยังเปลี่ยนการมองเห็นเป้าหมาย รายละเอียดพื้นผิว การกระจายแสง ช่วงไดนามิก และความเสถียรของลำดับเวลาไปพร้อมกัน
สำหรับวิดีโอมุมมองบุคคลที่หนึ่ง ปัญหาเหล่านี้จะถูกขยายเพิ่มเติมจากปัจจัยต่างๆ เช่น การบดบังด้วยมือ การเคลื่อนไหวของมุมมองที่รวดเร็ว และระยะการโต้ตอบที่ใกล้
ด้วยเหตุนี้ โมเดลจำนวนมากที่ทำงานได้ดีในเวลากลางวัน เมื่อถึงเวลากลางคืนไม่ได้ “แย่ลงเล็กน้อย” แต่จะเสื่อมถอยลงพร้อมกันในความสามารถพื้นฐาน เช่น การจดจำวัตถุ การอ่านข้อความ การตัดสินการกระทำ และการระบุตำแหน่งเชิงพื้นที่
คุณค่าของ EgoNight ประการแรกคือทำให้ปัญหาที่ถูกหลีกเลี่ยงมานานนี้กลายเป็นหัวข้อวิจัยที่สามารถวัดผลได้อย่างเป็นระบบ เปรียบเทียบได้อย่างยุติธรรม และสามารถผลักดันต่อไปได้อย่างต่อเนื่อง
EgoNight: การนำ “การจัดแนวระหว่างกลางวันและกลางคืน” เข้าสู่เกณฑ์มาตรฐานบุคคลที่หนึ่ง
ข้อสังเกตที่แข็งแกร่งประการหนึ่งของงานนี้คือ วิดีโอในเวลากลางคืนนั้นยากต่อการติดป้ายกำกับโดยตรง
ไม่ใช่แค่โมเดลเท่านั้น แม้แต่มนุษย์ที่ทำการติดป้ายกำกับในคลิปเวลากลางคืนล้วนๆ ก็มักจะสร้างคำถาม-คำตอบที่มีคุณภาพได้อย่างไม่เสถียร
เพื่อแก้ปัญหานี้ ผู้เขียนไม่ได้เพียงแค่เพิ่มปริมาณการเก็บข้อมูล แต่ได้นำ “วิดีโอที่จัดแนวระหว่างกลางวันและกลางคืน” มาเป็นแกนหลักในการออกแบบเกณฑ์มาตรฐานทั้งหมด
ในสถานการณ์ การกระทำ และเส้นเวลาเดียวกันหรือที่จัดแนวอย่างสูง จะเก็บรักษาทั้งเวอร์ชันกลางวันและกลางคืนไว้ จากนั้นใช้ข้อมูลอ้างอิงในเวลากลางวันเพื่อช่วยในการสร้างคำถาม-คำตอบในเวลากลางคืน

ตามแนวคิดนี้ EgoNight ประกอบด้วยชุดข้อมูลย่อยสามชุด: EgoNight-Sofia ที่เก็บรวบรวมจริง, EgoNight-Synthetic ที่สร้างจาก Blender/Infinigen และคลิปเวลากลางคืนจาก Oxford Day-and-Night

จากข้อมูลเหล่านี้ ผู้เขียนได้สร้างคำถาม-คำตอบ 3658 กลุ่ม ครอบคลุมคำถาม 12 ประเภท และใช้เวลามากกว่า 300 ชั่วโมงในการตรวจสอบด้วยมนุษย์
ที่สำคัญกว่านั้น กระบวนการติดป้ายกำกับทั้งหมดได้รับการออกแบบอย่างชัดเจน: ขั้นแรกสร้างคำอธิบายในเวลากลางคืน จากนั้นสร้างคำถามที่เป็นไปได้ ต่อจากนั้นนำข้อมูลอ้างอิงในเวลากลางวันมาใช้เพื่อปรับปรุงคำตอบ และสุดท้ายให้มนุษย์ปรับแต่งทีละรายการ
ข้อดีของวิธีนี้คือ การติดป้ายกำกับในเวลากลางคืนไม่ได้ขึ้นอยู่กับ “การเดาว่ามีอะไรอยู่ในที่มืด” อีกต่อไป แต่ถูกวางกลับเข้าไปในความสัมพันธ์การเปรียบเทียบข้ามสภาพแสงที่เชื่อถือได้มากขึ้น

การออกแบบภารกิจ: จาก “การมองเห็น” สู่ “ความเข้าใจ”
EgoNight-VQA ไม่ได้รวมคำถามทั้งหมดเป็นชุดใหญ่ แต่จงใจแยกภารกิจออกเป็นสองประเภท
ประเภทแรกคือคำถาม-คำตอบแบบคู่ที่สามารถเปรียบเทียบระหว่างกลางวันและกลางคืนได้โดยตรง เช่น การจดจำวัตถุ การจดจำข้อความ การจดจำการกระทำ ฯลฯ ภารกิจเหล่านี้สามารถบอกเราได้โดยตรงว่าในสถานการณ์เดียวกันและคำถามประเภทเดียวกัน ประสิทธิภาพจะลดลงเท่าใดระหว่างกลางวันและกลางคืน
ประเภทที่สองคือคำถาม-คำตอบแบบไม่จับคู่ที่เป็นเอกลักษณ์หรือเหมาะสมกว่าสำหรับเวลากลางคืน เช่น การจดจำแสง การเปลี่ยนแปลงของแสง การตรวจจับวัตถุที่เคลื่อนไหว การให้เหตุผลที่ไม่ใช่สามัญสำนึก ฯลฯ เพื่อจับจุดยากที่โดดเด่นในสภาพแสงน้อยเท่านั้น
นอกจากนี้ เกณฑ์มาตรฐานนี้ไม่ได้ทดสอบแค่ “คำถาม-คำตอบสั้นๆ” เท่านั้น
คำถามบางข้อต้องการเพียงไม่กี่เฟรมในการตอบ ในขณะที่บางข้อกำหนดให้โมเดลเข้าใจข้อมูลลำดับเวลาของวิดีโอทั้งหมด
นอกเหนือจาก VQA แล้ว บทความยังขยายภารกิจเสริมอีกสองภารกิจ: การประมาณความลึกจากมุมมองบุคคลที่หนึ่งในเวลากลางคืน และการค้นคืนที่สอดคล้องระหว่างกลางวันและกลางคืน
ภารกิจแรกมุ่งเน้นว่าการรับรู้ทางเรขาคณิตจะไม่เสถียรในสภาพแสงน้อยหรือไม่ ส่วนภารกิจที่สองมุ่งเน้นว่าโมเดลสามารถจับคู่สถานการณ์กลางวันและกลางคืนได้หรือไม่ แม้จะมีความแตกต่างของความสว่างมาก
กล่าวคือ EgoNight กำลังถามคำถามสามระดับพร้อมกัน: โมเดลยังมองเห็นได้ชัดเจนหรือไม่ ยังสามารถจัดแนวได้หรือไม่ และยังสามารถให้เหตุผลได้หรือไม่

ผลการทดลอง: โมเดลขนาดใหญ่ “ตาบอดร่วมกัน” ในเวลากลางคืน
ตารางอันดับที่เผยแพร่ในหน้าโครงการแสดงให้เห็นถึงปัญหา: ใน EgoNight-VQA ความแม่นยำเฉลี่ยของ GPT-4.1 และ Gemini 2.5 Pro อยู่ที่ 30.93% และ 30.60% ตามลำดับ ซึ่งเป็นหนึ่งในโมเดลที่ดีที่สุดในปัจจุบัน แต่ยังห่างไกลจาก “ความน่าเชื่อถือและการใช้งานได้”
ที่สำคัญกว่านั้น บทความไม่ได้เปรียบเทียบว่าใครสูงกว่ากัน แต่แยกการย้ายระหว่างกลางวันและกลางคืนออกมาดู: โมเดลเกือบทั้งหมดเมื่อย้ายจากกลางวันไปกลางคืนจะประสิทธิภาพลดลงอย่างมีนัยสำคัญ และภารกิจที่ขับเคลื่อนด้วยการรับรู้มักจะลดลงมากกว่าภารกิจที่เน้นการให้เหตุผล


ซึ่งหมายความว่าคอขวดของความเข้าใจในเวลากลางคืน ยังคงติดอยู่ที่ “สัญญาณภาพไม่เสถียรเพียงพอ” เป็นอันดับแรก
ในขณะเดียวกัน คำถามประเภทใหม่ที่ผู้เขียนเสนอ เช่น การจดจำแสง การเปลี่ยนแปลงของแสง การตรวจจับสถานการณ์ที่ไม่ใช่สามัญสำนึก มักจะยากกว่าคำถาม-คำตอบทั่วไป ซึ่งแสดงให้เห็นว่าแม้โมเดลจะสามารถอ่านภาพได้อย่างยากลำบาก แต่ก็อาจไม่ได้สร้างความเข้าใจสภาพแวดล้อมในเวลากลางคืนอย่างแท้จริง
การเสื่อมถอยที่คล้ายกันยังปรากฏในภารกิจเสริม: ไม่ว่าจะเป็นการประมาณความลึกหรือการค้นคืนที่สอดคล้องระหว่างกลางวันและกลางคืน แสงน้อยจะลดความสามารถในการจับคู่ทางเรขาคณิตและข้ามเงื่อนไขอย่างชัดเจน


จะปรับปรุงอย่างไร?

เพื่อสำรวจเพิ่มเติมว่า “ปัญหาอยู่ที่ไหน” ผู้เขียนได้ทำการทดลองปรับแต่งอย่างเป็นระบบโดยใช้ Qwen2.5-VL-7B
ผลลัพธ์แสดงให้เห็นว่าการปรับแต่งทั้งหมดนำมาซึ่งการปรับปรุงโดยรวมที่ชัดเจนที่สุด โดยมีกำไรสัมบูรณ์ 9.21% เมื่อเทียบกับเส้นฐานแบบ zero-shot
หากปรับแต่งตัวเข้ารหัสภาพเป็นหลัก ผลประโยชน์จะเน้นไปที่ภารกิจการรับรู้ เช่น วัตถุและข้อความ
ในขณะที่การปรับแต่งส่วนโมเดลภาษาสามารถปรับปรุงทั้งการรับรู้และการให้เหตุผล ซึ่งบ่งชี้ว่าความเข้าใจในเวลากลางคืนไม่เพียงได้รับผลกระทบจากการเสื่อมถอยของภาพเท่านั้น แต่ยังเกี่ยวข้องอย่างใกล้ชิดกับวิธีที่โมเดลใช้ความรู้ภาษาก่อนหน้า
ข้อค้นพบที่น่าสนใจอีกประการหนึ่งคือประสิทธิผลของการถ่ายโอนจากข้อมูลสังเคราะห์สู่โลกจริง: การฝึกด้วยข้อมูลสังเคราะห์ในเวลากลางคืนเพียงอย่างเดียวก็สามารถถ่ายโอนไปยังสถานการณ์กลางคืนจริงได้
สิ่งนี้สำคัญมากสำหรับทิศทางนี้ เนื่องจากต้นทุนการเก็บรวบรวมและการติดป้ายกำกับข้อมูลคุณภาพสูงในเวลากลางคืนสูงมาก และหากข้อมูลสังเคราะห์สามารถรับภาระการปรับตัวบางส่วนได้ ก็หมายความว่าการวิจัยการมองเห็นในเวลากลางคืนมีเส้นทางที่ขยายได้มากขึ้นในที่สุด
ผลลัพธ์ภาพเพิ่มเติม ข้อมูล ทางเข้าเกณฑ์มาตรฐาน และตัวอย่างโต้ตอบของ EgoNight สามารถดูได้โดยตรงในหน้าโครงการ
ที่อยู่บทความ: https://arxiv.org/abs/2510.06218
หน้าโครงการ: https://dehezhang2.github.io/EgoNight/
โค้ด: https://github.com/dehezhang2/EgoNight
ข้อมูล: https://huggingface.co/datasets/dehezhang2/EgoNight
ตัวอย่างโครงการ: https://dehezhang2.github.io/EgoNight/benchmark.html
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31943
