ARC-AGI

AI产业动态

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升，尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分，创造了新的纪录，并大幅领先于其他主流模型。核心能力提升 Opus 4.6 在编程能力上实现了重要进步，能够更细致地规划任务，在大型代码库中进行更可靠的操作，并提升了…

2026年2月6日
88000
AI产业动态

Poetiq元系统：以智能编排重塑大模型推理范式，成本减半性能登顶ARC-AGI-2

在人工智能快速演进的浪潮中，大模型的能力边界不断被拓展，但如何高效、低成本地调用这些模型解决复杂现实问题，仍是行业面临的重大挑战。近日，由6名前Google DeepMind核心成员创立的初创公司Poetiq，通过其创新的“元系统”架构，在这一领域取得了突破性进展。该系统不仅以54%的准确率在ARC-AGI-2基准测试中刷新纪录，更将每任务计算成本降至31美…

2025年12月14日
191000