Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分,创造了新的纪录,并大幅领先于其他主流模型。

核心能力提升
Opus 4.6 在编程能力上实现了重要进步,能够更细致地规划任务,在大型代码库中进行更可靠的操作,并提升了代码审查与调试的技能。同时,该模型成为 Opus 系列中首个支持 100 万 token 上下文窗口(测试版)的版本。

在日常办公场景中,新模型能够执行财务分析、进行研究,并熟练地使用和创建文档、电子表格与演示文稿。在 Claude 的 Cowork 协作环境中,Opus 4.6 可以自主运用这些技能为用户提供服务。
基准测试表现
除了在 ARC-AGI 测试中的突出表现,Opus 4.6 在多项关键评估中均达到了行业领先水平:
* 在 Terminal-Bench 2.0 代理编码评估中取得最高分 
* 在 Humanity’s Last Exam 复杂多学科推理测试中领先所有前沿模型 
* 在 GDPval-AA 经济价值工作任务评估中,其表现比行业次优模型(OpenAI GPT-5.2)高出约 144 个 Elo 点

对于 ARC-AGI 2 的高分,有评论认为这标志着该领域的能力将迅速达到新高度,但也存在关于基准测试能否真实衡量有意义能力的讨论。
实际应用反馈
早期测试合作伙伴对 Opus 4.6 给予了积极评价。Notion 称其为“Anthropic 发布的最强模型”,GitHub 指出其在“复杂的多步骤编码工作”上表现卓越,而 Replit 则认为其在代理规划方面实现了“巨大飞跃”。
定价保持不变
尽管性能大幅提升,但模型的定价策略维持不变:每百万 token 输入费用为 5 美元,输出费用为 25 美元。

安全性能
Anthropic 强调,此次智能提升并未牺牲安全性。在自动行为审计中,Opus 4.6 在欺骗、奉承、鼓励用户妄想及合作滥用等方面的错误对齐行为率保持在较低水平。

开发者新功能
API 方面引入了多项新功能以增强开发体验:
* 自适应思考:模型可自行判断何时需要进行深度推理。
* 努力控制:提供四个可调节的智能水平选项。
* 上下文压缩:自动总结并替换较旧的上下文信息以节省 token。
* 128k 输出 token 支持:支持生成长度达 128k token 的回复。
Claude Opus 4.6 现已通过 claude.ai、API 及所有主要云平台提供。对于需要处理复杂任务和长期代理工作的用户而言,此次升级值得重点关注。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20637
