Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分,创造了新的纪录,并大幅领先于其他主流模型。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

核心能力提升

Opus 4.6 在编程能力上实现了重要进步,能够更细致地规划任务,在大型代码库中进行更可靠的操作,并提升了代码审查与调试的技能。同时,该模型成为 Opus 系列中首个支持 100 万 token 上下文窗口(测试版)的版本。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

在日常办公场景中,新模型能够执行财务分析、进行研究,并熟练地使用和创建文档、电子表格与演示文稿。在 Claude 的 Cowork 协作环境中,Opus 4.6 可以自主运用这些技能为用户提供服务。

基准测试表现

除了在 ARC-AGI 测试中的突出表现,Opus 4.6 在多项关键评估中均达到了行业领先水平:
* 在 Terminal-Bench 2.0 代理编码评估中取得最高分 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元
* 在 Humanity’s Last Exam 复杂多学科推理测试中领先所有前沿模型 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元
* 在 GDPval-AA 经济价值工作任务评估中,其表现比行业次优模型(OpenAI GPT-5.2)高出约 144 个 Elo 点 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元 Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

对于 ARC-AGI 2 的高分,有评论认为这标志着该领域的能力将迅速达到新高度,但也存在关于基准测试能否真实衡量有意义能力的讨论。

实际应用反馈

早期测试合作伙伴对 Opus 4.6 给予了积极评价。Notion 称其为“Anthropic 发布的最强模型”,GitHub 指出其在“复杂的多步骤编码工作”上表现卓越,而 Replit 则认为其在代理规划方面实现了“巨大飞跃”。

定价保持不变

尽管性能大幅提升,但模型的定价策略维持不变:每百万 token 输入费用为 5 美元,输出费用为 25 美元。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

安全性能

Anthropic 强调,此次智能提升并未牺牲安全性。在自动行为审计中,Opus 4.6 在欺骗、奉承、鼓励用户妄想及合作滥用等方面的错误对齐行为率保持在较低水平。

Claude Opus 4.6震撼发布:ARC-AGI得分68%创纪录,百万token上下文窗口开启AI新纪元

开发者新功能

API 方面引入了多项新功能以增强开发体验:
* 自适应思考:模型可自行判断何时需要进行深度推理。
* 努力控制:提供四个可调节的智能水平选项。
* 上下文压缩:自动总结并替换较旧的上下文信息以节省 token。
* 128k 输出 token 支持:支持生成长度达 128k token 的回复。

Claude Opus 4.6 现已通过 claude.ai、API 及所有主要云平台提供。对于需要处理复杂任务和长期代理工作的用户而言,此次升级值得重点关注。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20637

(0)
上一篇 6天前
下一篇 6天前

相关推荐

  • 图灵奖得主Yann LeCun离职Meta创业:以世界模型推动高级机器智能革命

    近日,人工智能领域的标志性人物、图灵奖得主Yann LeCun宣布将在年底离开Meta,并创立一家专注于高级机器智能(Advanced Machine Intelligence,AMI)的初创公司。这一消息在科技界引发广泛关注,不仅因为LeCun作为深度学习先驱的行业地位,更因为其新公司的目标直指AI发展的核心挑战——构建能够理解物理世界、具备持久记忆和复杂…

    2025年11月20日
    8600
  • 学术匿名性危机:ICLR审稿人身份泄露事件的技术漏洞、社区冲击与系统反思

    近日,国际人工智能顶会ICLR 2026的审稿流程遭遇了前所未有的安全漏洞,导致审稿人身份信息大规模泄露。这一事件不仅暴露了学术评审系统的技术脆弱性,更引发了关于匿名评审制度、学术诚信与社区信任的深层讨论。 事件的核心在于OpenReview平台的一个技术漏洞被自动化爬虫攻击利用。攻击者通过构造特定URL,输入论文ID和审稿人编号即可获取对应审稿人的真实身份…

    2025年12月1日
    9500
  • 阿里千问APP深度解析:Qwen模型全面赋能,开启中国版ChatGPT的超级入口之战

    近日,阿里巴巴集团正式推出面向全球用户的ChatBot应用——千问APP,标志着其在C端AI应用市场的战略布局进入实质性阶段。这一举措不仅是对年初3800亿元AI基础设施投入的延续,更被视为阿里在“AI时代的未来之战”中的关键落子。从产品定位、模型能力到用户体验,千问APP展现出对标ChatGPT的雄心,并凭借其背后的Qwen大模型矩阵,试图在中文语境下打造…

    2025年11月17日
    10400
  • GPT-5.2发布遇冷:技术跃进与用户体验的鸿沟分析

    OpenAI在成立十周年之际发布了备受期待的GPT-5.2系列模型,官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”,并在多项基准测试中刷新了SOTA水平。然而,发布后短短24小时内,社交媒体上却涌现出大量负面评价,用户普遍反映模型“不通人性”、“安全过度”、“像对待幼儿园小孩”,甚至认为这是“技术倒退”。这一现象揭示了当前大模型发展中一个核心矛盾:…

    2025年12月13日
    10700
  • GDPS 2025:上海张江的具身智能“协同大考”,如何定义机器人产业未来?

    一场具身智能的“终极大考”正在上海张江科学会堂上演。全球具身智能顶级赛事——GDPS 2025拉开帷幕,这场赛事不仅汇聚了智元、宇树等国内头部机器人企业,更吸引了国际参赛队伍,将百大真实场景浓缩为一道道协同考题,从工业搬运、花艺创作到康养护理、灾害救援,全面检验机器人从“赛博推理”走向“物理执行”的能力。 舞台两侧,智元远征A2与灵犀X2机器人联袂亮相,穿着…

    2025年12月13日
    9600