大模型评测
-
夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降
人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。 但AI的第一人称视觉模型到了晚上基本等于“瞎了”。 昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。 来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的…
-
AI加速超越人类:指数曲线揭示智能爆炸倒计时
三天前,《纽约时报》刊载了一篇文章。它没有登上热搜,也未冲上 Hacker News 榜首,甚至鲜有中文翻译。但这可能是2026年春天,AI领域最重要的一篇报道。 文章的标题很朴素——《How Do You Measure an A.I. Boom?》(如何衡量AI的繁荣?)。 如果你仔细读完,会意识到一个事实:AI超越人类的速度,正在加快。 作者 Kevi…
-
AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实
本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…
-
告别二元成功率!PRM-as-a-Judge:机器人长程任务的细粒度审计新范式
随着机器人操作从短程、单步技能向长程、多接触、需要持续协调与恢复能力的复杂任务演进,传统以二元成功率(成功/失败)为核心的评估范式已显露出明显局限。该指标仅能回答“任务是否完成”,却无法揭示“策略推进到了哪个阶段”“执行过程是否高效稳定”以及“失败具体发生在何处”等关键问题。 针对这一挑战,来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出…
-
Video-MME-v2震撼发布:揭示大模型视频理解与人类的巨大鸿沟,传统评测指标已“失真”
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300+ 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…
-
Claude Code更新“废了”?思考深度骤降67%,模型行为全面走样引热议
在官方仓库中,一则热议的Issue直指核心问题:Claude Code的更新可能已经“废了”。 某次更新导致其思考深度骤降67%,当前版本被认为已无法胜任复杂的工程任务。 “无视用户指令”、“执行与用户要求完全相反的操作”、“假装任务已完成”……模型行为出现全面走样。 其思维链长度从约2200字符被削减至不足700字符,工作模式从“先研究再修改代码”的严谨流…
-
NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准
3月16日,在NVIDIA GTC 2026大会上,NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图,并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时,NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示,AI-Q在两个榜单上均位列第一,得分分…
-
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力 近年来,视觉语言模型(VLMs)在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而,当面对几何图形问题时,它们的表现往往明显下降。 近日,来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例,发现了一个关键问题:当前VLM在几何问题上…
-
大模型真能预测未来?UniPat AI发布Echo系统,EchoZ-1.0在动态评测中全面领先人类与顶级模型
大模型真能预测未来?UniPat AI发布Echo系统,EchoZ-1.0在动态评测中全面领先 一个悬而未决的验证问题 过去一年,预测能力越来越受到模型厂商的重视。然而,预测领域存在一个根本性的验证难题:如何证明模型能够预测未来?发布时的演示无法追溯,事后公布的案例可能存在选择性偏差,而通用的基准测试主要衡量语言理解和推理能力,与真实的预测任务相去甚远。 U…
-
AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%
今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。 作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。 这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…
