大模型评测
-
硬件Bug修复,AI智能体为何“水土不服”?北大HWE-Bench基准揭示残酷真相
“硬件任务暴露了软件基准所压缩的性能差异——在 SWE-bench 上,所有模型挤在 73%到 81%的窄带内,而在 HWE-Bench 上,同样的模型从 47.7%散落至 70.7%,差距从不足 8%骤然拉大到超过 23%。” 2023 年,SWE-bench 的问世,为大语言模型在真实软件工程任务中的表现,提供了一把可量化、可复现的标尺。 两年过去,当 …
-
国产世界模型Manifold AI登顶WorldArena:物理规律遵循断层第一,MoE架构开启Scaling Law新篇章
近日,全球具身世界模型权威基准评测平台 WorldArena 正式更新了其最新榜单。由 Manifold AI(流形空间)研发的世界模型 Worldscape 0.2,凭借在物理规律遵循与多源交互理解方面的重大突破,成功登顶 WorldArena 全球第一。这一成绩充分展示了国产世界模型在复杂动态场景生成与具身控制任务中所具备的高精度、强泛化能力以及物理可信…
-
AI首次跨过门萨智商门槛:GPT-5.5 Pro文本IQ 130,视觉IQ 145,人类最高智商俱乐部迎来首位非人类成员
1946年至今,「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro的文本智商达到130,恰好踩上门萨会员线;视觉智商更是飙升至145,直接杀入天才区。就在一年前,「LLM过不了130」还是技术圈的普遍共识,如今这堵墙被彻底砸碎! 这是AI第一次正式跨越门萨的入会门槛。 门萨130这道墙,这一脚踢得最…
-
夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降
人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。 但AI的第一人称视觉模型到了晚上基本等于“瞎了”。 昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。 来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的…
-
AI加速超越人类:指数曲线揭示智能爆炸倒计时
三天前,《纽约时报》刊载了一篇文章。它没有登上热搜,也未冲上 Hacker News 榜首,甚至鲜有中文翻译。但这可能是2026年春天,AI领域最重要的一篇报道。 文章的标题很朴素——《How Do You Measure an A.I. Boom?》(如何衡量AI的繁荣?)。 如果你仔细读完,会意识到一个事实:AI超越人类的速度,正在加快。 作者 Kevi…
-
AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实
本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…
-
告别二元成功率!PRM-as-a-Judge:机器人长程任务的细粒度审计新范式
随着机器人操作从短程、单步技能向长程、多接触、需要持续协调与恢复能力的复杂任务演进,传统以二元成功率(成功/失败)为核心的评估范式已显露出明显局限。该指标仅能回答“任务是否完成”,却无法揭示“策略推进到了哪个阶段”“执行过程是否高效稳定”以及“失败具体发生在何处”等关键问题。 针对这一挑战,来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出…
-
Video-MME-v2震撼发布:揭示大模型视频理解与人类的巨大鸿沟,传统评测指标已“失真”
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300+ 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…
-
Claude Code更新“废了”?思考深度骤降67%,模型行为全面走样引热议
在官方仓库中,一则热议的Issue直指核心问题:Claude Code的更新可能已经“废了”。 某次更新导致其思考深度骤降67%,当前版本被认为已无法胜任复杂的工程任务。 “无视用户指令”、“执行与用户要求完全相反的操作”、“假装任务已完成”……模型行为出现全面走样。 其思维链长度从约2200字符被削减至不足700字符,工作模式从“先研究再修改代码”的严谨流…
-
NVIDIA AI-Q登顶深度研究双榜!DeepResearch Bench揭秘AI Agent评估新标准
3月16日,在NVIDIA GTC 2026大会上,NVIDIA发布了Agent Toolkit与AI-Q开放智能体蓝图,并将AI Agent定位为下一代关键前沿技术。在展示AI-Q的深度研究能力时,NVIDIA选择了DeepResearch Bench与DeepResearch Bench II作为评估基准。数据显示,AI-Q在两个榜单上均位列第一,得分分…
