抽象推理

大模型评测

GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟，得分不足1%：大模型的“智能假象”被戳破？

在大型语言模型疯狂内卷的当下，人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而，在名为 ARC-AGI-3 的基准测试中，被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7，却双双遭遇“滑铁卢”。近日，ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…

1小时前
21000