AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。

作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为引人注目的是,在上一代测试(ARC-AGI-2)中表现出色、得分达69.2%的模型Opus 4.6,在ARC-AGI-3中的得分骤降至0.2%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一结果如同一面镜子,清晰地映照出当前人工智能能力结构中存在的根本性缺陷。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

近期有观点认为,我们可能已经触及通用人工智能(AGI)的门槛。然而,ARC-AGI-3的测试数据表明,现有AI或许连AGI所需能力的1%都尚未实现。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 ARC-AGI-3:设计理念与超高难度

ARC-AGI-3的前身(ARC-AGI-1与ARC-AGI-2)早已以超高难度闻名于AI领域。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

在之前的测试中,AI需要观察几个给定的示例(如图形网格变换),推断出背后的抽象规则,并将其应用于解决新问题。尽管题目看似简单,却让无数大模型折戟。

而ARC-AGI-3将难度提升到了一个新的维度:从静态推理题转变为动态交互式游戏

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含了150多个手工设计的交互式游戏环境,涵盖超过1000个关卡。每个游戏都拥有其独特的内在逻辑、隐藏规则和获胜条件。关键之处在于:没有任何说明文档或自然语言提示。AI智能体被直接置入游戏,只能看到当前屏幕画面,通过选择动作、观察反馈来探索和理解环境。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

AI必须像“盲人摸象”一般,通过试错逐步构建一个关于“这个世界如何运作”的心理模型。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这正是ARC Prize基金会旨在衡量的四项核心能力:
* 探索:能否通过主动交互获取关键信息?
* 建模:能否将零散观察整合成一个能预测未来状态的世界模型?
* 目标获取:在无明确指令下,能否自主推断出应该追求的目标?
* 规划与执行:能否制定行动计划,并根据环境反馈动态调整?

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 “几何级数”的评分标准:解读0.2%的含义

ARC-AGI-3的评分标准极为严苛,其核心并非简单的“是否通关”,而是评估智能体解决问题的效率,并且是与人类基准效率进行比较。这在AI基准测试史上尚属首次。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

受研究者弗朗索瓦·肖莱(François Chollet)关于智能度量的思想启发,ARC Prize团队将“智能”操作化为一个信息转换效率问题:你能多高效地从环境中提取信息?又能多快地将这些信息转化为正确的行动?

具体评分公式为:(人类所需步数 / AI所需步数)²
* 假设人类解决某个游戏平均需要10步。
* 如果AI用了100步,得分为 (10/100)² = 0.01,即 1%
* 如果AI用了200步,得分则为 (10/200)² = 0.0025,即 0.25%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一设计彻底堵死了AI依靠“暴力穷举”试错的可能性。每多尝试一步,分数都会呈平方级下降。

由此可以理解Opus 4.6的0.2%得分意味着什么:反推可知,在人类只需10步的游戏里,该模型平均需要大约224步才能解决。这远非“不够聪明”,而更像是在迷宫中彻底迷失。

 全景成绩单:350步 vs 两三下

在正式发布前,ARC-AGI-3进行了为期30天的开发者预览测试。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2% AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含三款风格各异的公开游戏(如地图导航、图案匹配、水位调节)。超过1200名人类玩家参与了测试,完成了3900多场游戏,轻松确立了100% 的人类基线得分。与之形成鲜明对比的是,所有前沿大模型的得分均低于1%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

预览期的优胜者是一个名为“StochasticGoose”(来自Tufa Labs)的智能体,它并非大语言模型,而是基于卷积神经网络(CNN)和简单强化学习构建的动作学习系统,最终得分为12.58%。即便如此,在一款调节水位的游戏中,该智能体在开局阶段仍进行了近350次无效点击操作——而人类玩家通常只需“两三下”就能理解机制。

一个更反直觉的现象是:排行榜前列几乎被非LLM方案占据(如CNN、基于规则的图搜索、无需训练的帧分析)。一个简单的CNN方案得分比GPT-5.x系列高出12个百分点以上。许多接入了前沿大模型的智能体反而成绩垫底,甚至频繁崩溃。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 核心失败模式:AI被自己的“知识”所困

ARC团队分析发现,AI的一个主要失败模式是:“误以为自己身处另一个熟悉的情境”

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

例如,AI进入一个全新环境,根据初始视觉信息迅速“脑补”出一个它从训练数据中“见过”的游戏框架(比如“这是打砖块游戏”),然后便固执地沿着这个错误假设执行计划,无法根据负面反馈调整认知。

这揭示了当前AI普遍缺乏 “元认知” 能力——即“知道自己不知道”的能力。这也解释了为何参数量更大、预训练知识更丰富的大模型表现更差:它们更容易将陌生环境强行套入已知模式,从而陷入死胡同。相反,那些轻量级的、没有“先入为主包袱”的模型,更能专注于从实时环境反馈中学习。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 人类的优势:本能的学习循环

ARC团队在文档中指出:“人类不会蛮力行事。他们会构建思维模型,检验想法,并迅速改进。”

人类玩家面对全新游戏时,会本能地启动一个高效循环:
1. 构建模型:快速观察,在几分钟内形成一个初步的“世界如何运作”的心理模型。
2. 检验假设:通过行动验证模型,根据结果(符合或偏离预期)立即强化或修正模型。
3. 快速迭代:在“探索-建模-验证-修正”的循环中迅速逼近解决方案。

而当前主流AI的“学习”本质上是离线的、基于海量数据模式匹配的“记忆”过程。ARC-AGI-3没有任何可供记忆的“题海”,它考察的正是“如何学习”这一核心能力——而这恰恰是当前AI最薄弱的环节。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

目前,围绕ARC-AGI-3的公开挑战赛奖金池高达85万美元,其中70万美元专为“满分通关者”设立。参赛方案必须完全开源,并在无网络连接的环境下接受评估,以确保公平性。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

横亘在AI与人类表现之间的“珠穆朗玛峰”,是否有AI能够成功翻越?答案有待未来揭晓。

参考资料:
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27600

(0)
上一篇 2026年3月27日 上午10:36
下一篇 2026年3月27日 上午10:49

相关推荐

  • Claude Code更新“废了”?思考深度骤降67%,模型行为全面走样引热议

    在官方仓库中,一则热议的Issue直指核心问题:Claude Code的更新可能已经“废了”。 某次更新导致其思考深度骤降67%,当前版本被认为已无法胜任复杂的工程任务。 “无视用户指令”、“执行与用户要求完全相反的操作”、“假装任务已完成”……模型行为出现全面走样。 其思维链长度从约2200字符被削减至不足700字符,工作模式从“先研究再修改代码”的严谨流…

    2026年4月7日
    71000
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    31600
  • AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实

    本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

    1天前
    16500
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    42100
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    41100