Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分,创造了新的纪录,并大幅领先于其他主流模型。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

核心能力提升

Opus 4.6 在编程能力上实现了重要进步,能够更细致地规划任务,在大型代码库中进行更可靠的操作,并提升了代码审查与调试的技能。同时,该模型成为 Opus 系列中首个支持 100 万 token 上下文窗口(测试版)的版本。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

在日常办公场景中,新模型能够执行财务分析、进行研究,并熟练地使用和创建文档、电子表格与演示文稿。在 Claude 的 Cowork 协作环境中,Opus 4.6 可以自主运用这些技能为用户提供服务。

基准测试表现

除了在 ARC-AGI 测试中的突出表现,Opus 4.6 在多项关键评估中均达到了行业领先水平:
* 在 Terminal-Bench 2.0 代理编码评估中取得最高分 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元
* 在 Humanity’s Last Exam 复杂多学科推理测试中领先所有前沿模型 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元
* 在 GDPval-AA 经济价值工作任务评估中,其表现比行业次优模型(OpenAI GPT-5.2)高出约 144 个 Elo 点 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

对于 ARC-AGI 2 的高分,有评论认为这标志着该领域的能力将迅速达到新高度,但也存在关于基准测试能否真实衡量有意义能力的讨论。

实际应用反馈

早期测试合作伙伴对 Opus 4.6 给予了积极评价。Notion 称其为“Anthropic 发布的最强模型”,GitHub 指出其在“复杂的多步骤编码工作”上表现卓越,而 Replit 则认为其在代理规划方面实现了“巨大飞跃”。

定价保持不变

尽管性能大幅提升,但模型的定价策略维持不变:每百万 token 输入费用为 5 美元,输出费用为 25 美元。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

安全性能

Anthropic 强调,此次智能提升并未牺牲安全性。在自动行为审计中,Opus 4.6 在欺骗、奉承、鼓励用户妄想及合作滥用等方面的错误对齐行为率保持在较低水平。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

开发者新功能

API 方面引入了多项新功能以增强开发体验:
* 自适应思考:模型可自行判断何时需要进行深度推理。
* 努力控制:提供四个可调节的智能水平选项。
* 上下文压缩:自动总结并替换较旧的上下文信息以节省 token。
* 128k 输出 token 支持:支持生成长度达 128k token 的回复。

Claude Opus 4.6 现已通过 claude.ai、API 及所有主要云平台提供。对于需要处理复杂任务和长期代理工作的用户而言,此次升级值得重点关注。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20637

(0)
上一篇 2026年2月6日 上午6:47
下一篇 2026年2月6日 上午8:12

相关推荐

  • DragonMemory:序列维度压缩技术革新RAG系统,16倍压缩比突破本地部署瓶颈

    在人工智能快速发展的浪潮中,检索增强生成(RAG)系统已成为连接大语言模型与外部知识库的关键桥梁。然而,随着应用场景的复杂化,上下文长度和内存成本问题日益凸显,成为制约RAG系统在资源受限环境中部署的主要障碍。传统解决方案多采用量化、剪枝等技术,但这些方法往往以牺牲语义精度为代价。近期,GitHub上出现的开源项目DragonMemory,以其创新的序列维度…

    2025年11月25日
    22600
  • 悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式

    在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…

    2025年10月30日
    23000
  • 从零实现30篇奠基论文:用NumPy揭秘深度学习核心思想

    在深度学习领域,Ilya Sutskever 曾有一个广为流传的判断:如果真正读懂并理解 30 篇奠基性论文,基本可以掌握人工智能 90% 的核心思想。 这不是指记住公式或复现 benchmark,而是理解模型为什么要这样设计、训练为何能收敛、哪些假设是成立的、哪些只是工程妥协。 问题在于,这 30 篇论文并不“友好”。 大量的数学推导、符号化描述、与现实代…

    2026年2月10日
    13000
  • 具身智能产业激辩实录:架构革命、数据路径与落地挑战的深度剖析

    2025年被业界普遍视为具身智能的爆发元年,这一领域正经历从概念验证到产业落地的关键转折。在北京鼎好大厦举行的智源具身2025 OpenDay现场,30余家顶尖具身智能企业的创始人、技术负责人齐聚一堂,围绕行业核心议题展开了长达四小时的深度辩论。这场汇聚产学研用各方的对话,不仅揭示了当前行业的技术分歧,更勾勒出未来发展的清晰路径。 在智源研究院院长王仲远的主…

    2025年11月21日
    22400
  • 自进化Agent突破量化因子挖掘瓶颈:QuantaAlpha框架实现27.75%年化收益

    上财团队 投稿 量子位 | 公众号 QbitAI 在量化金融的底层,Alpha因子本质上是一段可执行的代码逻辑,它们试图将嘈杂的市场数据映射为精准的交易信号。然而,长期以来,自动化因子挖掘始终被困在“两难”的夹缝中:传统的遗传规划 (Genetic Programming,GP) 虽然擅长在海量空间中进行进化搜索,但其本质是“盲目的随机变异”。 它们在回测中…

    2026年2月11日
    58300