Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。

我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。需要特别说明的是,本次评测主要聚焦于中文语境下的场景,官方所强调的复杂智能体任务、长时程编程工作、跨百万token上下文处理等核心优势,在当前评测框架下尚未得到充分体现。

Claude Opus 4.6版本表现:
* 测试题数:约1.5万
* 总分(准确率):70.5%
* 平均耗时(每次调用):15s
* 平均token(每次调用消耗的token):794
* 平均花费(每千次调用的人民币花费):96.5

1、新旧版本对比

首先对比上个版本(Claude Opus 4.5),数据如下:

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark
输出价格单位:元/百万token

  • 整体性能显著提升:新版本准确率从64.9%跃升至70.5%,提升了5.6个百分点,排名从第44位大幅攀升至第11位。
  • Agent能力大幅增强:最突出的改进在于“agent与工具调用”能力,从49.1%飙升至69.1%,增幅高达20个百分点,这与官方强调的“智能体任务持续时间更长、规划更周密”的定位高度吻合。
  • 推理能力稳步优化:“推理与数学计算能力”从67.9%提升至71.8%(+3.9%),“教育”领域也有所进步,从60.6%升至63.0%(+2.4%)。
  • 部分领域轻微回落:值得注意的是,新版本在“医疗与心理健康”(82.8%→81.5%,-1.3%)和“金融”(81.8%→79.0%,-2.8%)两个领域略有下降,表明在整体能力提升过程中存在一定的权衡取舍。
  • Token效率大幅优化:每次调用平均消耗的token从1063降至794,减少约25%,这得益于新版本引入的“自适应思考”机制——模型可以根据任务复杂度自动调节推理深度,在简单问题上避免过度思考。
  • 成本明显下降:每千次调用的费用从146.1元降至96.5元,降幅达34%,主要受益于token消耗减少和输出价格小幅下调(178.0元/M→175.0元/M)。

2、对比其他模型

在当前主流大模型竞争格局中,Claude Opus 4.6表现如何?我们从三个维度进行横向对比分析(本评测侧重中文场景,模型在其他语言和专业领域的表现可能有所不同):

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

数据来源:ReLE评测 https://github.com/jeinlee1991/chinese-llm-benchmark

2.1 同成本档位对比

  • 成本处于较高区间:96.5元/千次的成本使Claude Opus 4.6位于高端成本档位区间。在相近成本档位中,gpt-5.1-medium(87.9元)以69.3%的准确率与之接近,但Claude Opus 4.6以70.5%的准确率和更快的响应速度(15s vs 160s)占据优势。
  • 高成本模型中效率突出:与准确率相近的gemini-3-pro-preview(72.5%,247.3元)相比,Claude Opus 4.6成本更低且响应更快(15s vs 64s)。但与doubao-seed-1-8-251215(71.7%,7.3元)相比,Claude Opus 4.6的成本高出13倍,在追求极致成本效率比的场景下竞争力有限,在资源受限场景下需权衡考量。

2.2 新旧模型对比

  • 代际升级成效显著:相比Claude Opus 4.5(64.9%),新版本提升5.6个百分点,属于明显的代际进步。
  • 各厂商代际表现分化:Google阵营同样展现出代际优化,gemini-3-pro-preview(72.5%)相比gemini-2.5-pro(68.9%)提升了3.6个百分点;而OpenAI的gpt-5.2-high(67.4%)相比gpt-5.1-high(69.7%)则出现了2.3个百分点的回落,代际升级并非总能带来全面提升。
  • Anthropic产品线分化:Claude Opus 4.6(70.5%)定位旗舰,而claude-sonnet-4.5-thinking(68.8%)在本次中文场景评测中准确率略低。

2.3 开源VS闭源对比

  • 闭源阵营竞争激烈:在闭源商用模型中,qwen3-max-think-2026-01-23(72.8%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)均超过Claude Opus 4.6的70.5%,国内厂商在中文场景下展现出强劲竞争力。
  • 开源模型表现亮眼:开源阵营中,GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、DeepSeek-V3.2-Think(70.9%)等模型准确率与Claude Opus 4.6相当甚至更高,且成本更低(如DeepSeek-V3.2-Think仅7.5元/千次)。
  • Claude Opus 4.6的效率优势:相比同档准确率的思考模型,Claude Opus 4.6的核心优势在于响应速度(15s)和token效率(794),远优于DeepSeek-V3.2-Think(144s、2572 token)、Kimi-K2.5-Thinking(338s、3842 token)等,适合对延迟敏感的生产环境。

3、官方评测

根据Anthropic官方发布的信息,Claude Opus 4.6在多个专业评测基准上取得了领先成绩:

3.1 知识工作能力

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
在GDPval-AA评测(由Artificial Analysis独立运行,评估金融、法律等领域的高价值知识工作任务)中,Opus 4.6超越了业界第二名OpenAI的GPT-5.2约144 Elo分,超越其前代产品Claude Opus 4.5达190 Elo分。官方表示,这意味着Claude Opus 4.6在该评测中击败GPT-5.2的概率约为70%。

3.2 智能体编程能力

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
在智能体编程评测Terminal-Bench 2.0上,Opus 4.6取得了业界最高分,展现了在真实世界智能体编程和系统任务上的卓越表现。官方强调,新版本“规划更周密,能够更长时间地持续执行智能体任务,在大型代码库中运行更可靠,并具有更好的代码审查和调试能力来发现自身错误”。

3.3 深度推理能力

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
在Humanity‘s Last Exam(复杂多学科推理测试)中,Opus 4.6领先所有其他前沿模型。在BrowseComp(评估模型定位网络难查信息的能力)上也取得了最佳表现。

3.4 长上下文处理

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威
官方特别强调了Opus 4.6在长上下文任务上的突破:在MRCR v2的100万token、8针变体测试中,Opus 4.6得分76%,而Sonnet 4.5仅为18.5%。这代表了“模型在保持峰值性能的同时能实际利用多少上下文的质的飞跃”。

3.5 软件工程与专业领域能力

官方还展示了Claude Opus 4.6在多项专业基准上的表现,涵盖软件工程技能、多语言编程能力、长期连贯性、网络安全能力以及生命科学知识等维度:

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威 Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

官方表示,Claude Opus 4.6在多个专业领域展现出显著的能力提升:
* 根因分析:擅长诊断复杂的软件故障。
* 多语言编程:能够跨编程语言解决软件工程问题。
* 长期连贯性:在Vending-Bench 2测试中,比Opus 4.5多赚取3,050.53美元,展现了长时间保持专注和连贯思考的能力。
* 网络安全:在代码库中发现真实漏洞的能力优于其他所有模型。
* 生命科学:在计算生物学、结构生物学、有机化学和系统发育学测试中的表现几乎是Opus 4.5的2倍。

3.6 安全性评估

Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

根据官方系统卡,Opus 4.6在安全性方面表现如下:
* 整体对齐性:与此前最对齐的前沿模型Claude Opus 4.5持平或更优。
* 错误行为率:在欺骗、谄媚、助长用户妄想、配合滥用等方面的错误行为率较低。
* 过度拒绝率:是近期Claude模型中最低的。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21041

(0)
上一篇 2026年2月10日 下午12:22
下一篇 2026年2月10日 下午12:42

相关推荐

  • DeepSeek V4架构革命:mHC与Engram双核创新,颠覆传统编程工作模式

    2026年春节临近,全球AI圈迎来重磅传闻——中国AI实验室DeepSeek预计将在春节假期期间,正式发布其第四代旗舰大模型DeepSeek V4。 多方信源证实,这款承载着架构革命使命的大模型已进入最终筹备阶段,大概率将延续去年春节前发布R1模型的节奏。其带来的技术突破不仅将改写大模型行业格局,更将彻底颠覆程序员延续数十年的传统工作模式,同时重构整个AI算…

    2026年2月7日
    31300
  • GitHub精选:4款颠覆性文档工具,从协作平台到本地AI助手

    文档协作平台 Docs 是一个功能强大的开源文档协作平台,其背景相当硬核,由法国和德国政府联合发起。该项目已在 GitHub 上获得了超过 15.5K 的 Star。 这是一个支持实时协作的文档平台,非常适合用于做笔记、撰写文档或搭建团队知识库。 编辑器采用了流行的块状编辑模式,允许用户随意拖拽段落、图片和表格。在多人同时在线编辑时,你可以实时看到队友的光标…

    2026年1月24日
    35400
  • 视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

    在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。 传统评估体系面临的根本性挑…

    2025年12月15日
    25800
  • 4款GitHub开源AI技能:视频剪辑、文本去AI化、小红书发布与技能管理工具

    视频剪辑 Skill 这是一个名为 videocut-skills 的开源视频剪辑 Skill,能够辅助完成视频处理工作。它可以自动识别视频中的口误、静音片段以及语气词等冗余内容。通过简单的指令,AI 即可自动处理这些片段,从而显著提高剪辑效率。 该 Skill 集成了多种自动化功能,例如使用 Whisper 模型生成字幕,并支持通过词典进行纠错。它利用 F…

    2026年1月23日
    1.1K00
  • GDPS 2025:上海张江的具身智能“协同大考”,如何定义机器人产业未来?

    一场具身智能的“终极大考”正在上海张江科学会堂上演。全球具身智能顶级赛事——GDPS 2025拉开帷幕,这场赛事不仅汇聚了智元、宇树等国内头部机器人企业,更吸引了国际参赛队伍,将百大真实场景浓缩为一道道协同考题,从工业搬运、花艺创作到康养护理、灾害救援,全面检验机器人从“赛博推理”走向“物理执行”的能力。 舞台两侧,智元远征A2与灵犀X2机器人联袂亮相,穿着…

    2025年12月13日
    20100