AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。

作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为引人注目的是,在上一代测试(ARC-AGI-2)中表现出色、得分达69.2%的模型Opus 4.6,在ARC-AGI-3中的得分骤降至0.2%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一结果如同一面镜子,清晰地映照出当前人工智能能力结构中存在的根本性缺陷。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

近期有观点认为,我们可能已经触及通用人工智能(AGI)的门槛。然而,ARC-AGI-3的测试数据表明,现有AI或许连AGI所需能力的1%都尚未实现。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 ARC-AGI-3:设计理念与超高难度

ARC-AGI-3的前身(ARC-AGI-1与ARC-AGI-2)早已以超高难度闻名于AI领域。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

在之前的测试中,AI需要观察几个给定的示例(如图形网格变换),推断出背后的抽象规则,并将其应用于解决新问题。尽管题目看似简单,却让无数大模型折戟。

而ARC-AGI-3将难度提升到了一个新的维度:从静态推理题转变为动态交互式游戏

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含了150多个手工设计的交互式游戏环境,涵盖超过1000个关卡。每个游戏都拥有其独特的内在逻辑、隐藏规则和获胜条件。关键之处在于:没有任何说明文档或自然语言提示。AI智能体被直接置入游戏,只能看到当前屏幕画面,通过选择动作、观察反馈来探索和理解环境。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

AI必须像“盲人摸象”一般,通过试错逐步构建一个关于“这个世界如何运作”的心理模型。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这正是ARC Prize基金会旨在衡量的四项核心能力:
* 探索:能否通过主动交互获取关键信息?
* 建模:能否将零散观察整合成一个能预测未来状态的世界模型?
* 目标获取:在无明确指令下,能否自主推断出应该追求的目标?
* 规划与执行:能否制定行动计划,并根据环境反馈动态调整?

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 “几何级数”的评分标准:解读0.2%的含义

ARC-AGI-3的评分标准极为严苛,其核心并非简单的“是否通关”,而是评估智能体解决问题的效率,并且是与人类基准效率进行比较。这在AI基准测试史上尚属首次。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

受研究者弗朗索瓦·肖莱(François Chollet)关于智能度量的思想启发,ARC Prize团队将“智能”操作化为一个信息转换效率问题:你能多高效地从环境中提取信息?又能多快地将这些信息转化为正确的行动?

具体评分公式为:(人类所需步数 / AI所需步数)²
* 假设人类解决某个游戏平均需要10步。
* 如果AI用了100步,得分为 (10/100)² = 0.01,即 1%
* 如果AI用了200步,得分则为 (10/200)² = 0.0025,即 0.25%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

这一设计彻底堵死了AI依靠“暴力穷举”试错的可能性。每多尝试一步,分数都会呈平方级下降。

由此可以理解Opus 4.6的0.2%得分意味着什么:反推可知,在人类只需10步的游戏里,该模型平均需要大约224步才能解决。这远非“不够聪明”,而更像是在迷宫中彻底迷失。

 全景成绩单:350步 vs 两三下

在正式发布前,ARC-AGI-3进行了为期30天的开发者预览测试。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2% AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

测试包含三款风格各异的公开游戏(如地图导航、图案匹配、水位调节)。超过1200名人类玩家参与了测试,完成了3900多场游戏,轻松确立了100% 的人类基线得分。与之形成鲜明对比的是,所有前沿大模型的得分均低于1%

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

预览期的优胜者是一个名为“StochasticGoose”(来自Tufa Labs)的智能体,它并非大语言模型,而是基于卷积神经网络(CNN)和简单强化学习构建的动作学习系统,最终得分为12.58%。即便如此,在一款调节水位的游戏中,该智能体在开局阶段仍进行了近350次无效点击操作——而人类玩家通常只需“两三下”就能理解机制。

一个更反直觉的现象是:排行榜前列几乎被非LLM方案占据(如CNN、基于规则的图搜索、无需训练的帧分析)。一个简单的CNN方案得分比GPT-5.x系列高出12个百分点以上。许多接入了前沿大模型的智能体反而成绩垫底,甚至频繁崩溃。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 核心失败模式:AI被自己的“知识”所困

ARC团队分析发现,AI的一个主要失败模式是:“误以为自己身处另一个熟悉的情境”

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

例如,AI进入一个全新环境,根据初始视觉信息迅速“脑补”出一个它从训练数据中“见过”的游戏框架(比如“这是打砖块游戏”),然后便固执地沿着这个错误假设执行计划,无法根据负面反馈调整认知。

这揭示了当前AI普遍缺乏 “元认知” 能力——即“知道自己不知道”的能力。这也解释了为何参数量更大、预训练知识更丰富的大模型表现更差:它们更容易将陌生环境强行套入已知模式,从而陷入死胡同。相反,那些轻量级的、没有“先入为主包袱”的模型,更能专注于从实时环境反馈中学习。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

 人类的优势:本能的学习循环

ARC团队在文档中指出:“人类不会蛮力行事。他们会构建思维模型,检验想法,并迅速改进。”

人类玩家面对全新游戏时,会本能地启动一个高效循环:
1. 构建模型:快速观察,在几分钟内形成一个初步的“世界如何运作”的心理模型。
2. 检验假设:通过行动验证模型,根据结果(符合或偏离预期)立即强化或修正模型。
3. 快速迭代:在“探索-建模-验证-修正”的循环中迅速逼近解决方案。

而当前主流AI的“学习”本质上是离线的、基于海量数据模式匹配的“记忆”过程。ARC-AGI-3没有任何可供记忆的“题海”,它考察的正是“如何学习”这一核心能力——而这恰恰是当前AI最薄弱的环节。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

目前,围绕ARC-AGI-3的公开挑战赛奖金池高达85万美元,其中70万美元专为“满分通关者”设立。参赛方案必须完全开源,并在无网络连接的环境下接受评估,以确保公平性。

AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%

横亘在AI与人类表现之间的“珠穆朗玛峰”,是否有AI能够成功翻越?答案有待未来揭晓。

参考资料:
* https://x.com/Hesamation/status/2036861818321146306
* https://arcprize.org/arc-agi/3
* https://docs.arcprize.org/
* https://x.com/fchollet/status/2036881543973790004


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27600

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • T2R-Bench发布:业内首个由表格生成报告工业基准

    论文标题: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables 收录会议: EMNLP 2025 Main Conference 论文链接:https://www.arxiv.org/pdf/2508.19813 Huggi…

    2025年10月16日
    20100
  • Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

    【核心摘要】 全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。 当今的多模态大模型(如 GPT-5.2, Gemini-3 Pro)在各类视觉问答榜单上屡破纪录。然而,若希望将…

    2026年3月4日
    20900
  • 超越准确率:揭秘AI Agent评测的三大真相与行为分析革命

    当我们谈论AI Agent的性能时,一个百分比数字真的能说明全部问题吗?最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。 这项研究覆盖了9个极具挑战性的…

    2025年10月30日
    23100
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    18500
  • AI Agent评测体系全景:如何衡量智能体的真实能力?

    在AI Agent领域,我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。 从年初Manus的横空出世,到最近Genspark Super Agent的火爆登场,通用智能体的能力边界不断被刷新。与此同时,扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题:当企业将Agent作为核心竞争力时,究竟应该追求“万能工具箱”…

    2025年10月31日
    25400