ARC-AGI-3

大模型评测

GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟，得分不足1%：大模型的“智能假象”被戳破？

在大型语言模型疯狂内卷的当下，人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而，在名为 ARC-AGI-3 的基准测试中，被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7，却双双遭遇“滑铁卢”。近日，ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…

2026年5月2日
391000
大模型评测

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

今天，一项名为ARC-AGI-3的基准测试结果公布，其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。作为全球范围内尚未被现有AI能力“饱和”的关键智能基准，ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示，人类在该测试中平均得分高达100%，而所有参与测试的AI模型得分普遍低于1%。这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…

2026年3月27日
872000