夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。

但AI的第一人称视觉模型到了晚上基本等于“瞎了”。

昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。

来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的问题,被ICLR 2026收录。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

它把昼夜对齐视频、夜间问答评测、深度估计与跨光照检索放进同一套benchmark中,让研究者能够真正回答:

现有多模态模型到了夜里,究竟还剩下多少理解能力?

三点速读:

  • 首个夜间第一人称视觉综合基准,核心任务为EgoNight-VQA。
  • 用昼夜对齐视频提升标注质量,覆盖90段视频、3658组QA、12类问题。
  • 现有主流多模态大模型从白天迁移到夜晚时普遍明显掉点,夜间感知与推理仍远未解决。

为什么“夜间第一人称视觉”如此重要?

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

过去几年,第一人称视觉在智能眼镜、可穿戴助手、具身智能和机器人学习等方向快速升温,但相关benchmark大多建立在白天场景之上。

这个设定看似自然,实际上却绕开了真实世界中最棘手的一部分:夜间并不是“把亮度调低”这么简单,而是会同时改变目标可见性、纹理细节、光源分布、动态范围与时序稳定性。

对第一人称视频来说,这些问题还会被手部遮挡、视角快速移动、交互距离近等因素进一步放大。

也正因为如此,很多在白天看起来表现不错的模型,到了夜里并不是“略差一些”,而是会在物体识别、文字读取、动作判断、空间定位等基础能力上同步退化。

EgoNight的价值,首先就在于它把这个长期被回避的问题,变成了一个可以被系统测量、被公平比较、也能被持续推动的研究对象。

EgoNight:把“昼夜对齐”做进第一人称基准

这篇工作的一个很强的观察是:夜间视频本身很难直接标。

不只是模型,连人类标注者在纯夜间片段上也常常难以稳定生成高质量问答。

为了解决这个问题,作者没有简单扩大采集量,而是引入“昼夜对齐视频”作为整个基准的设计核心——

在相同或高度对齐的场景、动作与时间线上,同时保留白天与夜晚版本,再利用白天参考去辅助夜间问答构建。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

围绕这一思路,EgoNight包含三个数据子集:真实采集的EgoNight-Sofia、由Blender/Infinigen构建的EgoNight-Synthetic,以及来自Oxford Day-and-Night的夜间片段。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

基于这些数据,作者构建了3658组QA,覆盖12种题型,并投入300多小时进行人工复核。

更重要的是,整套标注流程也被设计得非常清楚:先做夜间描述生成,再生成候选问题,随后引入白天参考进行答案增强,最后由人工逐条精修。

这样做的好处是,夜间标注不再完全依赖“猜暗处有什么”,而是被放回到更可靠的跨光照对照关系中。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

任务设计:从“看见”到“理解”

EgoNight-VQA并没有把问题都堆成一个大杂烩,而是刻意区分了两类任务。

第一类是可以做昼夜直接对比的paired QA,例如物体识别、文字识别、动作识别等;这些任务能够直接告诉我们,同一个场景、同一类问题,在白天与夜晚之间会掉多少。

第二类是夜间特有或更适合夜间设问的unpaired QA,例如光照识别、光照动态、动态目标检测、非常识推理等,用来捕捉低光环境里才真正突出的难点。

此外,这个benchmark还不是只考“短问答”。

有些题目只需要几帧就能回答,有些则要求模型理解完整视频的时序信息。

除了VQA之外,论文还扩展了两项辅助任务:夜间第一人称深度估计,以及昼夜对应检索。

前者关注几何感知是否会在低光下失稳,后者关注模型能不能在亮度差异很大的情况下,仍把昼夜场景对应起来。

也就是说,EgoNight实际上在同时追问三个层面的问题:模型是否还能看清、还能对齐、还能推理。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

实验发现:大模型在夜晚“集体失明”

项目主页公布的榜单很能说明问题:在EgoNight-VQA 上,GPT-4.1和Gemini 2.5 Pro的平均准确率分别为30.93%和30.60%,已经是当前表现最好的模型之一,但距离“可靠可用”仍有相当距离。

更关键的是,论文不是简单比较谁更高,而是把昼夜迁移这件事拆开看:几乎所有模型从白天转到夜晚都会显著掉点,而且感知驱动的任务通常比推理导向的任务跌得更厉害。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

这意味着夜间理解的瓶颈,首先仍然卡在“视觉信号不够稳”上。

与此同时,作者新提出的几类题,例如光照识别、光照变化、非常识情况检测往往又比常规QA更难,这说明模型即使能勉强读出画面,也未必真正建立了对夜间场景的环境理解。

类似的退化还出现在辅助任务中:无论是深度估计还是昼夜对应检索,低光都会明显削弱几何与跨条件匹配能力。

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

如何改进?

夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降

为了进一步探清楚“问题出在哪里”,作者基于Qwen2.5-VL-7B做了系统微调实验。

结果显示全量微调带来最明显的整体提升,相比zero-shot基线有9.21%的绝对增益;

如果主要调视觉编码器,收益更集中在物体和文字等感知类任务;

而调语言模型部分,则能同时改善感知与推理,说明夜间理解不仅受视觉退化影响,也和模型如何调用语言先验密切相关。

另一个值得关注的发现是synthetic-to-real transfer的有效性:只用合成夜间数据训练,也能迁移到真实夜间场景。

这对于该方向非常重要,因为夜间高质量数据的采集与标注成本都很高,而合成数据如果能承担一部分适配任务,就意味着夜间视觉研究终于有了更可扩展的推进路径。

EgoNight的更多可视化结果、数据与 benchmark 入口及可交互demo,已经可以在项目主页中直接查看。

论文地址:https://arxiv.org/abs/2510.06218
项目主页:https://dehezhang2.github.io/EgoNight/
代码:https://github.com/dehezhang2/EgoNight
数据: https://huggingface.co/datasets/dehezhang2/EgoNight
项目demo:https://dehezhang2.github.io/EgoNight/benchmark.html


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31942

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • RAG系统评测全攻略:五大核心指标与三种方法深度解析

    在构建RAG系统时,如何科学地评测系统效果是每个开发者都会面临的挑战。一个优秀的RAG系统不仅要能检索到相关信息,还要能准确理解用户意图并生成可靠的答案。本文将带你深入了解RAG系统的评测体系,从核心指标到实战落地,帮助你建立起完整的评测方法论。 一、为什么需要科学的评测体系? RAG系统本质上包含三个核心环节:理解用户问题、检索相关文档、生成最终答案。每个…

    2025年10月28日
    30700
  • 阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升

    阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…

    2026年3月1日
    99200
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    33800
  • Grok-4-1-fast-non-reasoning评测:成本骤降69%但准确率暴跌14%,极端优化策略引质疑

    XAI近期发布的Grok-4-1-fast模型提供思考模式(reasoning)和非思考模式(non-reasoning)两种版本。本次评测聚焦于非思考模式版本grok-4-1-fast-non-reasoning。相比此前的grok-3-mini版本,新版本在成本控制上实现了显著优化,但准确率却出现大幅下滑。我们对两个版本在准确率、响应时间、Token消耗…

    2025年11月26日
    47500
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    1.6K00