Opus 4.6
-
AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%
今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。 作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。 这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…