Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

2026年2月6日上午7:15 • AI产业动态 • 阅读 342

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升，尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分，创造了新的纪录，并大幅领先于其他主流模型。

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

核心能力提升

Opus 4.6 在编程能力上实现了重要进步，能够更细致地规划任务，在大型代码库中进行更可靠的操作，并提升了代码审查与调试的技能。同时，该模型成为 Opus 系列中首个支持 100 万 token 上下文窗口（测试版）的版本。

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

在日常办公场景中，新模型能够执行财务分析、进行研究，并熟练地使用和创建文档、电子表格与演示文稿。在 Claude 的 Cowork 协作环境中，Opus 4.6 可以自主运用这些技能为用户提供服务。

基准测试表现

除了在 ARC-AGI 测试中的突出表现，Opus 4.6 在多项关键评估中均达到了行业领先水平：
* 在 Terminal-Bench 2.0 代理编码评估中取得最高分
* 在 Humanity’s Last Exam 复杂多学科推理测试中领先所有前沿模型
* 在 GDPval-AA 经济价值工作任务评估中，其表现比行业次优模型（OpenAI GPT-5.2）高出约 144 个 Elo 点 Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

对于 ARC-AGI 2 的高分，有评论认为这标志着该领域的能力将迅速达到新高度，但也存在关于基准测试能否真实衡量有意义能力的讨论。

实际应用反馈

早期测试合作伙伴对 Opus 4.6 给予了积极评价。Notion 称其为“Anthropic 发布的最强模型”，GitHub 指出其在“复杂的多步骤编码工作”上表现卓越，而 Replit 则认为其在代理规划方面实现了“巨大飞跃”。

定价保持不变

尽管性能大幅提升，但模型的定价策略维持不变：每百万 token 输入费用为 5 美元，输出费用为 25 美元。

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

安全性能

Anthropic 强调，此次智能提升并未牺牲安全性。在自动行为审计中，Opus 4.6 在欺骗、奉承、鼓励用户妄想及合作滥用等方面的错误对齐行为率保持在较低水平。

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

开发者新功能

API 方面引入了多项新功能以增强开发体验：
* 自适应思考：模型可自行判断何时需要进行深度推理。
* 努力控制：提供四个可调节的智能水平选项。
* 上下文压缩：自动总结并替换较旧的上下文信息以节省 token。
* 128k 输出 token 支持：支持生成长度达 128k token 的回复。

Claude Opus 4.6 现已通过 claude.ai、API 及所有主要云平台提供。对于需要处理复杂任务和长期代理工作的用户而言，此次升级值得重点关注。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20637

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

核心能力提升

基准测试表现

实际应用反馈

定价保持不变

安全性能

开发者新功能

相关推荐

8亿用户背后的企业AI革命：OpenAI报告揭示ChatGPT如何重塑工作流程与行业格局

AgentFS：基于SQLite的AI智能体状态管理革命，单文件封装完整运行时

OpenAI发起Model Craft挑战：16MB参数极限压缩，10分钟训练，争夺百万算力与面试机会

AI大模型周报：阿里、腾讯、Anthropic等巨头密集发布，多模态与推理能力成焦点

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演