AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

今天，一项名为ARC-AGI-3的基准测试结果公布，其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。

作为全球范围内尚未被现有AI能力“饱和”的关键智能基准，ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示，人类在该测试中平均得分高达100%，而所有参与测试的AI模型得分普遍低于1%。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为引人注目的是，在上一代测试（ARC-AGI-2）中表现出色、得分达69.2%的模型Opus 4.6，在ARC-AGI-3中的得分骤降至0.2%。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

这一结果如同一面镜子，清晰地映照出当前人工智能能力结构中存在的根本性缺陷。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

近期有观点认为，我们可能已经触及通用人工智能（AGI）的门槛。然而，ARC-AGI-3的测试数据表明，现有AI或许连AGI所需能力的1%都尚未实现。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

ARC-AGI-3：设计理念与超高难度

ARC-AGI-3的前身（ARC-AGI-1与ARC-AGI-2）早已以超高难度闻名于AI领域。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

在之前的测试中，AI需要观察几个给定的示例（如图形网格变换），推断出背后的抽象规则，并将其应用于解决新问题。尽管题目看似简单，却让无数大模型折戟。

而ARC-AGI-3将难度提升到了一个新的维度：从静态推理题转变为动态交互式游戏。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

测试包含了150多个手工设计的交互式游戏环境，涵盖超过1000个关卡。每个游戏都拥有其独特的内在逻辑、隐藏规则和获胜条件。关键之处在于：没有任何说明文档或自然语言提示。AI智能体被直接置入游戏，只能看到当前屏幕画面，通过选择动作、观察反馈来探索和理解环境。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

AI必须像“盲人摸象”一般，通过试错逐步构建一个关于“这个世界如何运作”的心理模型。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

这正是ARC Prize基金会旨在衡量的四项核心能力：
* 探索：能否通过主动交互获取关键信息？
* 建模：能否将零散观察整合成一个能预测未来状态的世界模型？
* 目标获取：在无明确指令下，能否自主推断出应该追求的目标？
* 规划与执行：能否制定行动计划，并根据环境反馈动态调整？

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

“几何级数”的评分标准：解读0.2%的含义

ARC-AGI-3的评分标准极为严苛，其核心并非简单的“是否通关”，而是评估智能体解决问题的效率，并且是与人类基准效率进行比较。这在AI基准测试史上尚属首次。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

受研究者弗朗索瓦·肖莱（François Chollet）关于智能度量的思想启发，ARC Prize团队将“智能”操作化为一个信息转换效率问题：你能多高效地从环境中提取信息？又能多快地将这些信息转化为正确的行动？

具体评分公式为：(人类所需步数 / AI所需步数)²。
* 假设人类解决某个游戏平均需要10步。
* 如果AI用了100步，得分为 (10/100)² = 0.01，即 1%。
* 如果AI用了200步，得分则为 (10/200)² = 0.0025，即 0.25%。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

这一设计彻底堵死了AI依靠“暴力穷举”试错的可能性。每多尝试一步，分数都会呈平方级下降。

由此可以理解Opus 4.6的0.2%得分意味着什么：反推可知，在人类只需10步的游戏里，该模型平均需要大约224步才能解决。这远非“不够聪明”，而更像是在迷宫中彻底迷失。

全景成绩单：350步 vs 两三下

在正式发布前，ARC-AGI-3进行了为期30天的开发者预览测试。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

测试包含三款风格各异的公开游戏（如地图导航、图案匹配、水位调节）。超过1200名人类玩家参与了测试，完成了3900多场游戏，轻松确立了100% 的人类基线得分。与之形成鲜明对比的是，所有前沿大模型的得分均低于1%。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

预览期的优胜者是一个名为“StochasticGoose”（来自Tufa Labs）的智能体，它并非大语言模型，而是基于卷积神经网络（CNN）和简单强化学习构建的动作学习系统，最终得分为12.58%。即便如此，在一款调节水位的游戏中，该智能体在开局阶段仍进行了近350次无效点击操作——而人类玩家通常只需“两三下”就能理解机制。

一个更反直觉的现象是：排行榜前列几乎被非LLM方案占据（如CNN、基于规则的图搜索、无需训练的帧分析）。一个简单的CNN方案得分比GPT-5.x系列高出12个百分点以上。许多接入了前沿大模型的智能体反而成绩垫底，甚至频繁崩溃。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

核心失败模式：AI被自己的“知识”所困

ARC团队分析发现，AI的一个主要失败模式是：“误以为自己身处另一个熟悉的情境”。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

例如，AI进入一个全新环境，根据初始视觉信息迅速“脑补”出一个它从训练数据中“见过”的游戏框架（比如“这是打砖块游戏”），然后便固执地沿着这个错误假设执行计划，无法根据负面反馈调整认知。

这揭示了当前AI普遍缺乏 “元认知” 能力——即“知道自己不知道”的能力。这也解释了为何参数量更大、预训练知识更丰富的大模型表现更差：它们更容易将陌生环境强行套入已知模式，从而陷入死胡同。相反，那些轻量级的、没有“先入为主包袱”的模型，更能专注于从实时环境反馈中学习。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

人类的优势：本能的学习循环

ARC团队在文档中指出：“人类不会蛮力行事。他们会构建思维模型，检验想法，并迅速改进。”

人类玩家面对全新游戏时，会本能地启动一个高效循环：
1. 构建模型：快速观察，在几分钟内形成一个初步的“世界如何运作”的心理模型。
2. 检验假设：通过行动验证模型，根据结果（符合或偏离预期）立即强化或修正模型。
3. 快速迭代：在“探索-建模-验证-修正”的循环中迅速逼近解决方案。

而当前主流AI的“学习”本质上是离线的、基于海量数据模式匹配的“记忆”过程。ARC-AGI-3没有任何可供记忆的“题海”，它考察的正是“如何学习”这一核心能力——而这恰恰是当前AI最薄弱的环节。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

目前，围绕ARC-AGI-3的公开挑战赛奖金池高达85万美元，其中70万美元专为“满分通关者”设立。参赛方案必须完全开源，并在无网络连接的环境下接受评估，以确保公平性。

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

横亘在AI与人类表现之间的“珠穆朗玛峰”，是否有AI能够成功翻越？答案有待未来揭晓。

参考资料：
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/27600

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

ARC-AGI-3：设计理念与超高难度

“几何级数”的评分标准：解读0.2%的含义

全景成绩单：350步 vs 两三下

核心失败模式：AI被自己的“知识”所困

人类的优势：本能的学习循环

相关推荐

GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟，得分不足1%：大模型的“智能假象”被戳破？

SGI-Bench评测揭示：顶尖AI模型离“合格科学家”仍遥远，科学通用能力成新挑战

SWE-Bench：从1.96%到72.8%，AI编程能力的革命性突破与未来展望

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

RAG系统评测全攻略：五大核心指标与三种方法深度解析