抽象推理
-
GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟,得分不足1%:大模型的“智能假象”被戳破?
在大型语言模型疯狂内卷的当下,人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而,在名为 ARC-AGI-3 的基准测试中,被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7,却双双遭遇“滑铁卢”。 近日,ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…