Claude Sonnet 4.6今天正式上线,这是Anthropic迄今为止最强大的Sonnet模型。该模型在编码、计算机使用、长上下文推理等核心能力上实现全面升级,最引人注目的是其beta版百万token上下文窗口。

从性能基准测试来看,Sonnet 4.6在终端编码、编程能力、计算机使用等关键指标上表现突出。有开发者反馈,在真实编码任务中,70%的情况下他们更倾向于选择Sonnet 4.6而非前代Sonnet 4.5,甚至59%的情况下优于去年11月发布的Opus 4.5。
计算机操作能力实现质的飞跃
计算机使用能力的提升尤为显著。OSWorld基准测试显示,Sonnet 4.6得分达到72.5%,相比2024年10月Sonnet 3.5的14.9%实现了近五倍增长。

早期用户已经观察到模型在处理复杂电子表格和多步骤网页表单时展现出接近人类水平的能力。这意味着企业现在可以用AI自动化那些原本需要人工操作的遗留系统,而无需构建专门的API接口。
实际应用价值显著
对于Claude in Excel用户,新版本支持MCP连接器,可以直接与S&P Global、LSEG、PitchBook等金融数据源集成。用户可以在不离开Excel的情况下让Claude获取外部数据并进行分析。

API方面,网页搜索和获取工具现在支持动态过滤功能,通过自动编写和执行代码来预处理搜索结果,提高了11%的准确性同时减少了24%的token消耗。
安全方面,Anthropic称模型对提示词注入攻击有更强的抵抗力。这符合他们一贯的安全优先策略。
实际使用中,用户反馈代码修改、文档理解和前端设计有明显改进。模型现在更擅长处理现实软件,比如电子表格和网页表单,不需要特殊API。更关键的是,它减少了过度设计和幻觉问题,在多步骤、分支任务上表现更可靠。
定价策略与可用性
Sonnet 4.6现已在所有Claude计划、Claude Cowork、Claude Code以及API中可用。免费用户现在也能默认使用Sonnet 4.6,并包含文件创建、连接器、技能和压缩功能。
有网友在社交媒体上指出,考虑到性能提升和价格优势,Sonnet 4.6可能成为OpenClaw等AI代理任务的新首选。对于预算有限的开发者,这确实提供了一个性价比极高的选择。
不过也有观点认为,对于需要最深层次推理的任务,如代码库重构或多代理协调,Opus 4.6仍然是最佳选择。关键在于根据具体使用场景在性能和成本之间找到平衡点。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21832
