Claude Sonnet 4.6震撼发布:百万token上下文+人类级计算机操作,性能直逼Opus

Claude Sonnet 4.6今天正式上线,这是Anthropic迄今为止最强大的Sonnet模型。该模型在编码、计算机使用、长上下文推理等核心能力上实现全面升级,最引人注目的是其beta版百万token上下文窗口。

Claude Sonnet 4.6震撼发布:百万token上下文+人类级计算机操作,性能直逼Opus

性能基准测试来看,Sonnet 4.6在终端编码、编程能力、计算机使用等关键指标上表现突出。有开发者反馈,在真实编码任务中,70%的情况下他们更倾向于选择Sonnet 4.6而非前代Sonnet 4.5,甚至59%的情况下优于去年11月发布的Opus 4.5。

计算机操作能力实现质的飞跃

计算机使用能力的提升尤为显著。OSWorld基准测试显示,Sonnet 4.6得分达到72.5%,相比2024年10月Sonnet 3.5的14.9%实现了近五倍增长。

Claude Sonnet 4.6震撼发布:百万token上下文+人类级计算机操作,性能直逼Opus

早期用户已经观察到模型在处理复杂电子表格和多步骤网页表单时展现出接近人类水平的能力。这意味着企业现在可以用AI自动化那些原本需要人工操作的遗留系统,而无需构建专门的API接口。

实际应用价值显著

对于Claude in Excel用户,新版本支持MCP连接器,可以直接与S&P Global、LSEG、PitchBook等金融数据源集成。用户可以在不离开Excel的情况下让Claude获取外部数据并进行分析。

Claude Sonnet 4.6震撼发布:百万token上下文+人类级计算机操作,性能直逼Opus

API方面,网页搜索和获取工具现在支持动态过滤功能,通过自动编写和执行代码来预处理搜索结果,提高了11%的准确性同时减少了24%的token消耗。

安全方面,Anthropic称模型对提示词注入攻击有更强的抵抗力。这符合他们一贯的安全优先策略。

实际使用中,用户反馈代码修改、文档理解和前端设计有明显改进。模型现在更擅长处理现实软件,比如电子表格和网页表单,不需要特殊API。更关键的是,它减少了过度设计和幻觉问题,在多步骤、分支任务上表现更可靠。

定价策略与可用性

Sonnet 4.6现已在所有Claude计划、Claude Cowork、Claude Code以及API中可用。免费用户现在也能默认使用Sonnet 4.6,并包含文件创建、连接器、技能和压缩功能。

有网友在社交媒体上指出,考虑到性能提升和价格优势,Sonnet 4.6可能成为OpenClaw等AI代理任务的新首选。对于预算有限的开发者,这确实提供了一个性价比极高的选择。

不过也有观点认为,对于需要最深层次推理的任务,如代码库重构或多代理协调,Opus 4.6仍然是最佳选择。关键在于根据具体使用场景在性能和成本之间找到平衡点。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21832

(0)
上一篇 2026年2月17日 下午8:18
下一篇 2026年2月18日 上午8:30

相关推荐

  • QQ浏览器AI化转型深度解析:从工具到智能体的全场景重构

    在人工智能浪潮席卷全球的当下,传统互联网产品正面临前所未有的转型压力。作为拥有上亿用户的国民级应用,QQ浏览器近期宣布全面升级为AI浏览器,这一战略转向不仅体现了腾讯在AI领域的深厚布局,更预示着浏览器行业将从信息工具向智能服务平台演进的根本性变革。本文将从技术架构、产品设计、用户体验及行业影响四个维度,深入剖析QQ浏览器的AI化转型路径。 从技术底层来看,…

    2025年12月19日
    20600
  • FlashWorld:秒级高质量3D场景生成技术突破,开源模型性能超越闭源竞品

    近日,厦门大学与腾讯联合发布的研究论文《FlashWorld: High-quality 3D Scene Generation within Seconds》在学术界和工业界引发广泛关注。该论文不仅登上Huggingface Daily Paper榜单首位,更获得包括AK、Midjourney创始人、SuperSplat创始人在内的多位AI领域专家在X平台…

    2025年10月30日
    15200
  • 突破百万上下文:面壁智能SALA混合注意力架构引领端侧大模型新纪元

    最强的大模型,已经把scaling卷到了一个新维度:百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力——单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 而这股scaling的风,也很快吹到了端侧。 面壁智能发布了首次大规模训练的稀疏与线性混合注意力模型。这套新注意力架构,不仅解决了…

    2026年2月11日
    5200
  • AI革命下的程序员生存指南:当代码稀疏化遇上技能焦虑,如何驾驭这场“9级大地震”?

    年末假期是总结与思考的时刻,但对于程序员而言,深入思考后可能会感到一丝不安。 近期,Andrej Karpathy 在 X 平台发布的一条推文,引发了数万程序员和从业者的强烈共鸣与热议。 Karpathy 坦言:“我从未像现在这样,感觉自己作为一名程序员如此落后。” 他指出,编程这一职业正在被彻底重构。程序员直接编写的代码越来越少,更多的工作转变为在各种工具…

    2025年12月27日
    20800
  • Orchestrator:英伟达8B小模型如何重构AI工具调度范式,实现成本效益革命

    在人工智能领域,大语言模型(LLM)的算力消耗与成本问题日益凸显。传统解决方案依赖单一强大模型(如GPT-5)处理所有任务,导致推理成本居高不下,尤其在需要调用外部工具(如代码解释器、数学求解器、检索系统)的复杂场景中,这种模式既昂贵又低效。英伟达研究团队近期推出的Orchestrator模型,以仅80亿参数(8B)的轻量级架构,通过创新的工具调度机制,在多…

    2025年12月12日
    18400