今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。
作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。

这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为引人注目的是,在上一代测试(ARC-AGI-2)中表现出色、得分达69.2%的模型Opus 4.6,在ARC-AGI-3中的得分骤降至0.2%。

这一结果如同一面镜子,清晰地映照出当前人工智能能力结构中存在的根本性缺陷。

近期有观点认为,我们可能已经触及通用人工智能(AGI)的门槛。然而,ARC-AGI-3的测试数据表明,现有AI或许连AGI所需能力的1%都尚未实现。

ARC-AGI-3:设计理念与超高难度
ARC-AGI-3的前身(ARC-AGI-1与ARC-AGI-2)早已以超高难度闻名于AI领域。

在之前的测试中,AI需要观察几个给定的示例(如图形网格变换),推断出背后的抽象规则,并将其应用于解决新问题。尽管题目看似简单,却让无数大模型折戟。
而ARC-AGI-3将难度提升到了一个新的维度:从静态推理题转变为动态交互式游戏。

测试包含了150多个手工设计的交互式游戏环境,涵盖超过1000个关卡。每个游戏都拥有其独特的内在逻辑、隐藏规则和获胜条件。关键之处在于:没有任何说明文档或自然语言提示。AI智能体被直接置入游戏,只能看到当前屏幕画面,通过选择动作、观察反馈来探索和理解环境。

AI必须像“盲人摸象”一般,通过试错逐步构建一个关于“这个世界如何运作”的心理模型。

这正是ARC Prize基金会旨在衡量的四项核心能力:
* 探索:能否通过主动交互获取关键信息?
* 建模:能否将零散观察整合成一个能预测未来状态的世界模型?
* 目标获取:在无明确指令下,能否自主推断出应该追求的目标?
* 规划与执行:能否制定行动计划,并根据环境反馈动态调整?

“几何级数”的评分标准:解读0.2%的含义
ARC-AGI-3的评分标准极为严苛,其核心并非简单的“是否通关”,而是评估智能体解决问题的效率,并且是与人类基准效率进行比较。这在AI基准测试史上尚属首次。

受研究者弗朗索瓦·肖莱(François Chollet)关于智能度量的思想启发,ARC Prize团队将“智能”操作化为一个信息转换效率问题:你能多高效地从环境中提取信息?又能多快地将这些信息转化为正确的行动?
具体评分公式为:(人类所需步数 / AI所需步数)²。
* 假设人类解决某个游戏平均需要10步。
* 如果AI用了100步,得分为 (10/100)² = 0.01,即 1%。
* 如果AI用了200步,得分则为 (10/200)² = 0.0025,即 0.25%。

这一设计彻底堵死了AI依靠“暴力穷举”试错的可能性。每多尝试一步,分数都会呈平方级下降。
由此可以理解Opus 4.6的0.2%得分意味着什么:反推可知,在人类只需10步的游戏里,该模型平均需要大约224步才能解决。这远非“不够聪明”,而更像是在迷宫中彻底迷失。
全景成绩单:350步 vs 两三下
在正式发布前,ARC-AGI-3进行了为期30天的开发者预览测试。

测试包含三款风格各异的公开游戏(如地图导航、图案匹配、水位调节)。超过1200名人类玩家参与了测试,完成了3900多场游戏,轻松确立了100% 的人类基线得分。与之形成鲜明对比的是,所有前沿大模型的得分均低于1%。

预览期的优胜者是一个名为“StochasticGoose”(来自Tufa Labs)的智能体,它并非大语言模型,而是基于卷积神经网络(CNN)和简单强化学习构建的动作学习系统,最终得分为12.58%。即便如此,在一款调节水位的游戏中,该智能体在开局阶段仍进行了近350次无效点击操作——而人类玩家通常只需“两三下”就能理解机制。
一个更反直觉的现象是:排行榜前列几乎被非LLM方案占据(如CNN、基于规则的图搜索、无需训练的帧分析)。一个简单的CNN方案得分比GPT-5.x系列高出12个百分点以上。许多接入了前沿大模型的智能体反而成绩垫底,甚至频繁崩溃。

核心失败模式:AI被自己的“知识”所困
ARC团队分析发现,AI的一个主要失败模式是:“误以为自己身处另一个熟悉的情境”。

例如,AI进入一个全新环境,根据初始视觉信息迅速“脑补”出一个它从训练数据中“见过”的游戏框架(比如“这是打砖块游戏”),然后便固执地沿着这个错误假设执行计划,无法根据负面反馈调整认知。
这揭示了当前AI普遍缺乏 “元认知” 能力——即“知道自己不知道”的能力。这也解释了为何参数量更大、预训练知识更丰富的大模型表现更差:它们更容易将陌生环境强行套入已知模式,从而陷入死胡同。相反,那些轻量级的、没有“先入为主包袱”的模型,更能专注于从实时环境反馈中学习。

人类的优势:本能的学习循环
ARC团队在文档中指出:“人类不会蛮力行事。他们会构建思维模型,检验想法,并迅速改进。”
人类玩家面对全新游戏时,会本能地启动一个高效循环:
1. 构建模型:快速观察,在几分钟内形成一个初步的“世界如何运作”的心理模型。
2. 检验假设:通过行动验证模型,根据结果(符合或偏离预期)立即强化或修正模型。
3. 快速迭代:在“探索-建模-验证-修正”的循环中迅速逼近解决方案。
而当前主流AI的“学习”本质上是离线的、基于海量数据模式匹配的“记忆”过程。ARC-AGI-3没有任何可供记忆的“题海”,它考察的正是“如何学习”这一核心能力——而这恰恰是当前AI最薄弱的环节。

目前,围绕ARC-AGI-3的公开挑战赛奖金池高达85万美元,其中70万美元专为“满分通关者”设立。参赛方案必须完全开源,并在无网络连接的环境下接受评估,以确保公平性。

横亘在AI与人类表现之间的“珠穆朗玛峰”,是否有AI能够成功翻越?答案有待未来揭晓。
参考资料:
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27600


