AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。

作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为引人注目的是,在上一代测试(ARC-AGI-2)中表现出色、得分达69.2%的模型Opus 4.6,在ARC-AGI-3中的得分骤降至0.2%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一结果如同一面镜子,清晰地映照出当前人工智能能力结构中存在的根本性缺陷。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

近期有观点认为,我们可能已经触及通用人工智能(AGI)的门槛。然而,ARC-AGI-3的测试数据表明,现有AI或许连AGI所需能力的1%都尚未实现。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 ARC-AGI-3:设计理念与超高难度

ARC-AGI-3的前身(ARC-AGI-1与ARC-AGI-2)早已以超高难度闻名于AI领域。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

在之前的测试中,AI需要观察几个给定的示例(如图形网格变换),推断出背后的抽象规则,并将其应用于解决新问题。尽管题目看似简单,却让无数大模型折戟。

而ARC-AGI-3将难度提升到了一个新的维度:从静态推理题转变为动态交互式游戏

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含了150多个手工设计的交互式游戏环境,涵盖超过1000个关卡。每个游戏都拥有其独特的内在逻辑、隐藏规则和获胜条件。关键之处在于:没有任何说明文档或自然语言提示。AI智能体被直接置入游戏,只能看到当前屏幕画面,通过选择动作、观察反馈来探索和理解环境。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

AI必须像“盲人摸象”一般,通过试错逐步构建一个关于“这个世界如何运作”的心理模型。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这正是ARC Prize基金会旨在衡量的四项核心能力:
* 探索:能否通过主动交互获取关键信息?
* 建模:能否将零散观察整合成一个能预测未来状态的世界模型?
* 目标获取:在无明确指令下,能否自主推断出应该追求的目标?
* 规划与执行:能否制定行动计划,并根据环境反馈动态调整?

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 “几何级数”的评分标准:解读0.2%的含义

ARC-AGI-3的评分标准极为严苛,其核心并非简单的“是否通关”,而是评估智能体解决问题的效率,并且是与人类基准效率进行比较。这在AI基准测试史上尚属首次。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

受研究者弗朗索瓦·肖莱(François Chollet)关于智能度量的思想启发,ARC Prize团队将“智能”操作化为一个信息转换效率问题:你能多高效地从环境中提取信息?又能多快地将这些信息转化为正确的行动?

具体评分公式为:(人类所需步数 / AI所需步数)²
* 假设人类解决某个游戏平均需要10步。
* 如果AI用了100步,得分为 (10/100)² = 0.01,即 1%
* 如果AI用了200步,得分则为 (10/200)² = 0.0025,即 0.25%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一设计彻底堵死了AI依靠“暴力穷举”试错的可能性。每多尝试一步,分数都会呈平方级下降。

由此可以理解Opus 4.6的0.2%得分意味着什么:反推可知,在人类只需10步的游戏里,该模型平均需要大约224步才能解决。这远非“不够聪明”,而更像是在迷宫中彻底迷失。

 全景成绩单:350步 vs 两三下

在正式发布前,ARC-AGI-3进行了为期30天的开发者预览测试。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2% AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含三款风格各异的公开游戏(如地图导航、图案匹配、水位调节)。超过1200名人类玩家参与了测试,完成了3900多场游戏,轻松确立了100% 的人类基线得分。与之形成鲜明对比的是,所有前沿大模型的得分均低于1%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

预览期的优胜者是一个名为“StochasticGoose”(来自Tufa Labs)的智能体,它并非大语言模型,而是基于卷积神经网络(CNN)和简单强化学习构建的动作学习系统,最终得分为12.58%。即便如此,在一款调节水位的游戏中,该智能体在开局阶段仍进行了近350次无效点击操作——而人类玩家通常只需“两三下”就能理解机制。

一个更反直觉的现象是:排行榜前列几乎被非LLM方案占据(如CNN、基于规则的图搜索、无需训练的帧分析)。一个简单的CNN方案得分比GPT-5.x系列高出12个百分点以上。许多接入了前沿大模型的智能体反而成绩垫底,甚至频繁崩溃。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 核心失败模式:AI被自己的“知识”所困

ARC团队分析发现,AI的一个主要失败模式是:“误以为自己身处另一个熟悉的情境”

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

例如,AI进入一个全新环境,根据初始视觉信息迅速“脑补”出一个它从训练数据中“见过”的游戏框架(比如“这是打砖块游戏”),然后便固执地沿着这个错误假设执行计划,无法根据负面反馈调整认知。

这揭示了当前AI普遍缺乏 “元认知” 能力——即“知道自己不知道”的能力。这也解释了为何参数量更大、预训练知识更丰富的大模型表现更差:它们更容易将陌生环境强行套入已知模式,从而陷入死胡同。相反,那些轻量级的、没有“先入为主包袱”的模型,更能专注于从实时环境反馈中学习。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 人类的优势:本能的学习循环

ARC团队在文档中指出:“人类不会蛮力行事。他们会构建思维模型,检验想法,并迅速改进。”

人类玩家面对全新游戏时,会本能地启动一个高效循环:
1. 构建模型:快速观察,在几分钟内形成一个初步的“世界如何运作”的心理模型。
2. 检验假设:通过行动验证模型,根据结果(符合或偏离预期)立即强化或修正模型。
3. 快速迭代:在“探索-建模-验证-修正”的循环中迅速逼近解决方案。

而当前主流AI的“学习”本质上是离线的、基于海量数据模式匹配的“记忆”过程。ARC-AGI-3没有任何可供记忆的“题海”,它考察的正是“如何学习”这一核心能力——而这恰恰是当前AI最薄弱的环节。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

目前,围绕ARC-AGI-3的公开挑战赛奖金池高达85万美元,其中70万美元专为“满分通关者”设立。参赛方案必须完全开源,并在无网络连接的环境下接受评估,以确保公平性。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

横亘在AI与人类表现之间的“珠穆朗玛峰”,是否有AI能够成功翻越?答案有待未来揭晓。

参考资料:
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27600

(0)
上一篇 2026年3月27日 上午10:36
下一篇 2026年3月27日 上午10:49

相关推荐

  • GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟,得分不足1%:大模型的“智能假象”被戳破?

    在大型语言模型疯狂内卷的当下,人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而,在名为 ARC-AGI-3 的基准测试中,被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7,却双双遭遇“滑铁卢”。 近日,ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…

    2026年5月2日
    39100
  • SGI-Bench评测揭示:顶尖AI模型离“合格科学家”仍遥远,科学通用能力成新挑战

    如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力” (SGI) 尚无统一标准。 SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力 (如学科问答、单步工具操作) ,难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型 (PIM) ,将科学探究拆解为四个循环阶段,并与AI能力维度对应: 审思/…

    2025年12月27日
    1.2K00
  • SWE-Bench:从1.96%到72.8%,AI编程能力的革命性突破与未来展望

    2024年初,最先进的AI模型仅能解决不到2%的真实世界编程问题。如今,这一数字已飙升至72.8%。实现这一革命性突破的关键,是普林斯顿大学与芝加哥大学联合发布、发表于ICLR 2024的基准测试——SWE-bench(《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》)。 一…

    2025年11月5日
    50800
  • GPT-5.2实测:速度革命性突破,准确率小幅回退,定位转向实时应用

    OpenAI近期发布了GPT-5.2新版本(默认非思考模式),相比此前的GPT-5.1非思考版本,在响应速度上实现了革命性突破,但在准确率方面出现了轻微回退。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2版本表现:* 测试题数:约1.5万* 总分(准确率):56.9%* 平均耗时(…

    2025年12月13日
    42900
  • RAG系统评测全攻略:五大核心指标与三种方法深度解析

    在构建RAG系统时,如何科学地评测系统效果是每个开发者都会面临的挑战。一个优秀的RAG系统不仅要能检索到相关信息,还要能准确理解用户意图并生成可靠的答案。本文将带你深入了解RAG系统的评测体系,从核心指标到实战落地,帮助你建立起完整的评测方法论。 一、为什么需要科学的评测体系? RAG系统本质上包含三个核心环节:理解用户问题、检索相关文档、生成最终答案。每个…

    2025年10月28日
    40300