人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。
但AI的第一人称视觉模型到了晚上基本等于“瞎了”。
昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。
来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的问题,被ICLR 2026收录。

它把昼夜对齐视频、夜间问答评测、深度估计与跨光照检索放进同一套benchmark中,让研究者能够真正回答:
现有多模态模型到了夜里,究竟还剩下多少理解能力?
三点速读:
- 首个夜间第一人称视觉综合基准,核心任务为EgoNight-VQA。
- 用昼夜对齐视频提升标注质量,覆盖90段视频、3658组QA、12类问题。
- 现有主流多模态大模型从白天迁移到夜晚时普遍明显掉点,夜间感知与推理仍远未解决。
为什么“夜间第一人称视觉”如此重要?

过去几年,第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向快速升温,但相关benchmark大多建立在白天场景之上。
这个设定看似自然,实际上却绕开了真实世界中最棘手的一部分:夜间并不是“把亮度调低”这么简单,而是会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性。
对第一人称视频来说,这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大。
也正因为如此,很多在白天看起来表现不错的模型,到了夜里并不是“略差一些”,而是会在物体识别、文字读取、动作判断、空间定位等基础能力上同步退化。
EgoNight的价值,首先就在于它把这个长期被回避的问题,变成了一个可以被系统测量、被公平比较、也能被持续推动的研究对象。
EgoNight:把“昼夜对齐”做进第一人称基准
这篇工作的一个很强的观察是:夜间视频本身很难直接标。
不只是模型,连人类标注者在纯夜间片段上也常常难以稳定生成高质量问答。
为了解决这个问题,作者没有简单扩大采集量,而是引入“昼夜对齐视频”作为整个基准的设计核心——
在相同或高度对齐的场景、动作与时间线上,同时保留白天与夜晚版本,再利用白天参考去辅助夜间问答构建。

围绕这一思路,EgoNight包含三个数据子集:真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic,以及来自Oxford Day-and-Night的夜间片段。

基于这些数据,作者构建了3658组QA,覆盖12种题型,并投入300多小时进行人工复核。
更重要的是,整套标注流程也被设计得非常清楚:先做夜间描述生成,再生成候选问题,随后引入白天参考进行答案增强,最后由人工逐条精修。
这样做的好处是,夜间标注不再完全依赖“猜暗处有什么”,而是被放回到更可靠的跨光照对照关系中。

任务设计:从“看见”到“理解”
EgoNight-VQA并没有把问题都堆成一个大杂烩,而是刻意区分了两类任务。
第一类是可以做昼夜直接对比的paired QA,例如物体识别、文字识别、动作识别等;这些任务能够直接告诉我们,同一个场景、同一类问题,在白天与夜晚之间会掉多少。
第二类是夜间特有或更适合夜间设问的unpaired QA,例如光照识别、光照动态、动态目标检测、非常识推理等,用来捕捉低光环境里才真正突出的难点。
此外,这个benchmark还不是只考“短问答”。
有些题目只需要几帧就能回答,有些则要求模型理解完整视频的时序信息。
除了VQA之外,论文还扩展了两项辅助任务:夜间第一人称深度估计,以及昼夜对应检索。
前者关注几何感知是否会在低光下失稳,后者关注模型能不能在亮度差异很大的情况下,仍把昼夜场景对应起来。
也就是说,EgoNight实际上在同时追问三个层面的问题:模型是否还能看清、还能对齐、还能推理。

实验发现:大模型在夜晚“集体失明”
项目主页公布的榜单很能说明问题:在EgoNight-VQA 上,GPT-4.1和Gemini 2.5 Pro的平均准确率分别为30.93%和30.60%,已经是当前表现最好的模型之一,但距离“可靠可用”仍有相当距离。
更关键的是,论文不是简单比较谁更高,而是把昼夜迁移这件事拆开看:几乎所有模型从白天转到夜晚都会显著掉点,而且感知驱动的任务通常比推理导向的任务跌得更厉害。


这意味着夜间理解的瓶颈,首先仍然卡在“视觉信号不够稳”上。
与此同时,作者新提出的几类题,例如光照识别、光照变化、非常识情况检测往往又比常规QA更难,这说明模型即使能勉强读出画面,也未必真正建立了对夜间场景的环境理解。
类似的退化还出现在辅助任务中:无论是深度估计还是昼夜对应检索,低光都会明显削弱几何与跨条件匹配能力。


如何改进?

为了进一步探清楚“问题出在哪里”,作者基于Qwen2.5-VL-7B做了系统微调实验。
结果显示全量微调带来最明显的整体提升,相比zero-shot基线有9.21%的绝对增益;
如果主要调视觉编码器,收益更集中在物体和文字等感知类任务;
而调语言模型部分,则能同时改善感知与推理,说明夜间理解不仅受视觉退化影响,也和模型如何调用语言先验密切相关。
另一个值得关注的发现是synthetic-to-real transfer的有效性:只用合成夜间数据训练,也能迁移到真实夜间场景。
这对于该方向非常重要,因为夜间高质量数据的采集与标注成本都很高,而合成数据如果能承担一部分适配任务,就意味着夜间视觉研究终于有了更可扩展的推进路径。
EgoNight的更多可视化结果、数据与 benchmark 入口及可交互demo,已经可以在项目主页中直接查看。
论文地址:https://arxiv.org/abs/2510.06218
项目主页:https://dehezhang2.github.io/EgoNight/
代码:https://github.com/dehezhang2/EgoNight
数据: https://huggingface.co/datasets/dehezhang2/EgoNight
项目demo:https://dehezhang2.github.io/EgoNight/benchmark.html
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31942

