Claude Opus 4.7突袭发布:性能全面升级,视觉能力提升3倍,高级软件工程表现亮眼

Claude Opus 4.7 突袭发布:性能全面升级,视觉能力提升3倍,高级软件工程表现亮眼(上)

Anthropic 在发布代号为“Mythos”的预览模型后,迅速推出了其公开可用的最强模型——Claude Opus 4.7。

此次更新在多个关键领域实现了显著提升,尤其在高级软件工程任务上表现突出,但部分用户反馈其风格与行为模式有所变化。

核心升级四大方向

通览官方发布的信息,Claude Opus 4.7 主要在以下四个方向实现了重点突破。

1. 高级软件工程领域:能力显著增强

Opus 4.7 最显著的进步体现在高级软件工程领域。多项基准测试数据证明了其能力的飞跃:

  • SWE-bench Verified 测试通过率达到 78.2%
  • SWE-bench Multimodal 达到 72.7%
  • Terminal-Bench 2.0 得分 68.8%
  • Rakuten-SWE-Bench 中解决生产任务的数量是 Opus 4.6 的 3倍
  • GitHub 93项任务编码基准 提升了 13%

Cursor 的 CEO Michael Truell 评价道:

在 CursorBench 上,Opus 4.7 从 58% 跃升到 70%,这个跃升意义重大。

这种提升具体体现在三个关键特性上:

  1. 严格遵循指令:模型倾向于字面执行用户指令,而非“灵活解读”模糊表述。这要求用户调整提示词策略,更明确地表达需求。
  2. 输出前自我验证:模型在报告结果前,会自行设计方法验证其输出的正确性。
  3. 擅长复杂任务:在复杂多文件变更、模糊问题调试和跨服务代码审查方面表现优异。Notion 的 AI 负责人 Sarah Sachs 分享称,面对复杂工作流,Opus 4.7 比前代提升 14%,且工具调用错误率降至三分之一。
2. 视觉能力:分辨率提升3倍,细节识别增强

在视觉能力方面,Opus 4.7 取得了重要进步:

  • 图像分辨率支持:长边最大支持 2576 像素(约 375 万像素),是 Opus 4.6 的 3倍以上
  • 视觉敏锐度:在 XBOW 视觉基准测试中达到 98.5%(Opus 4.6 为 54.5%)。

这意味着模型能够直接识别完整的 Figma 设计稿、包含小字的 1080p 终端截图,并精准解析复杂的技术架构图或财报图表。在计算机使用场景中,可清晰读取高密度 UI 元素。

3. 指令遵循与推理:更可控、更可靠

Opus 4.7 在指令遵循上采取了更严格的字面执行策略。例如,若用户要求“不要用 TypeScript”,模型将坚决避免使用;要求“输出 JSON”,则输出不会包含额外前缀。这种变化提升了控制的精确性,但可能需要用户调整原有的提示词习惯。

在推理能力方面,模型在 100 万 token 的长上下文场景中表现亮眼,在 BFS 任务上的得分从 Opus 4.6 的 41.2% 提升至 58.6%,复杂推理的逻辑连贯性显著增强。

4. Agent 能力增强:为智能体场景优化

Opus 4.7 被定位为“为 Agent(智能体)而生”的版本,其核心 Agent 能力获得全方位提升:

  • 多步骤工作流:在 Notion 的多步骤工作流测试中,成功率提升 14%,工具调用错误率降至 1/3
  • 长周期决策:在 Vending-Bench 2 长期模拟中,最终余额达 10937 美元(Opus 4.6 为 8018 美元),决策更稳健。
  • 文件系统记忆:具备跨会话记忆关键信息的能力,新任务可减少 40% 的重复上下文输入。

Cognition 的 CEO Scott Wu 形容:

Opus 4.7 在 Devin 中将长周期自主性提升到新水平。它能连贯工作数小时,突破难题而不是放弃。

此外,模型为开发者提供了更精细的控制选项,包括新增的 xhigh 推理等级、自适应思考模式、任务预算管理(公开 Beta)以及 Claude Code 中新增的 /ultrareview 深度代码审查命令。

安全策略:首发防护与能力限制

Anthropic 官方指出,Opus 4.7 的网络安全相关能力被刻意控制在低于 Mythos Preview 的水平。这是其 AI 安全策略的一部分,旨在作为强大模型与公开部署之间的“缓冲带”。

具体措施包括:
* 在训练中差异化降低了模型的网络能力,使其在面对相关任务时表现更谨慎。
* 部署了自动检测和阻止高风险网络安全请求的防护措施。
* 针对有合法需求的网络安全专业人员,推出了 Cyber Verification Program,可通过正式渠道申请将模型用于漏洞研究、渗透测试等目的。

对于从 Opus 4.6 迁移至 4.7 的开发者,需注意 tokenizer 已更新,可能对提示词效果和 token 计数产生细微影响。

Opus 4.7 采用了新的分词器,这提升了文本处理效率,但也导致相同的输入内容可能被映射为更多的 token,其数量约为之前的 1.0 至 1.35 倍。

这意味着,使用相同的提示词可能会消耗更多 token,在成本预算中需要为此预留空间。

其次,在更高的“努力级别”下,模型会产生更多的输出 token。Opus 4.7 在 highxhigh 级别下的思考深度显著增加,尤其是在 Agent 场景的多轮对话后期。这种“多思考、更可靠”的行为模式提升了输出质量,但也意味着 token 消耗会随着会话长度的增长而增加。

定价与使用注意事项

Opus 4.7 的定价与 Opus 4.6 保持一致:输入为每百万 token 5 美元,输出为每百万 token 25 美元。该模型已全面开放,除 Claude 官方渠道外,也已登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方 API,并同步上线微软 Foundry、谷歌 Cloud Vertex AI 和亚马逊 Bedrock 三大云平台。

尽管存在提示词重构需求和 token 使用策略的调整,但 Anthropic 的内部测试给出了积极信号。在一个内部的 Agent 编码评估中,所有努力级别下的 token 使用效率相比 Opus 4.6 均有改善。换言之,虽然单次调用的 token 数量可能增加,但由于模型犯错次数减少,完成任务所需的总 token 往往更少。

这类似于雇佣一位时薪更高的资深工程师,其完成任务更快、返工更少,最终总成本可能更低。

成本优化建议

Opus 4.7 在后续对话轮次中会更加谨慎,这带来了更可靠的输出,但也意味着更多的 token 消耗。开发者可以通过调整 effort 参数、设置任务预算或优化提示词来平衡性能与成本。Anthropic 建议,在测试编码和 Agent 用例时,可从 highxhigh 努力级别开始,再根据实际需求逐步调整。

总体而言,实际使用成本会因具体使用方式而异,但在大多数情况下,模型能力提升所带来的效率增益,能够抵消 token 消耗的增加。对于依赖 Claude 进行复杂开发工作的团队而言,这很可能是一笔划算的交易。

参考链接:
[1] https://www.anthropic.com/news/claude-opus-4-7
[2] https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3] https://x.com/i/trending/2044560325509316766


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30739

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • SimKO算法突破RLVR探索困境:实现大模型推理中探索与利用的平衡

    在DeepSeek-R1、Kimi1.5等模型相继展示强化学习对大型语言模型复杂推理能力的显著提升后,可验证强化学习(RLVR)在数学、逻辑与编程等领域的应用已成为研究热点。然而,现有RLVR方法在提升模型pass@1性能的同时,却导致pass@K(K>1)性能下降,这一矛盾现象揭示了当前强化学习范式的根本缺陷。 **RLVR的探索困境:概率分布的过度…

    2025年11月8日
    24900
  • 中美AI竞速白热化:47天30次更新,海淀成中国AI集群突破核心

    2026年的AI开局,没有谁在观望。 硅谷在卷。中国在卷。 节奏几乎同步,不分伯仲。 看向硅谷,从1月1日Meta的Llama4 Swarm,到Google最新发布的Gemini 3.1 Pro,高频的技术脉冲平均每2-3天就引发一次行业热烈讨论。 在中国这头,据不完全统计,仅1月1日至除夕,国内公开宣发、具有行业影响力的AI模型技术迭代已超过30起。47天…

    2026年2月22日
    27200
  • 何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练

    训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…

    2026年2月8日
    28000
  • GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

    OpenAI研究副总裁Jerry Tworek首次详解GPT-5,称其本质是o3模型的升级版(o3.1)。他指出,强化学习与预训练结合是AGI发展的核心路径,未来将打造更自主、思考时间更长的推理模型。Jerry还认可DeepSeek的GRPO算法推动美国RL研究,并透露OpenAI内部高度自主、信息透明,员工甚至自费使用ChatGPT。

    2025年10月23日
    48300
  • 英伟达GTC 2026:黄仁勋揭示万亿美元蓝图,Vera Rubin系统重塑AI算力格局

    英伟达GTC 2026大会以一种不同寻常的方式开场——首席执行官黄仁勋迟到了15分钟。这场盛会汇聚了450家赞助企业、1000场技术分会、2000位演讲者以及110台机器人,其规模已远超一场普通的技术会议,更像是全球AI行业的年度朝圣。 舞台中央,身着标志性皮衣的黄仁勋,被赋予了新的称号——“Token之王”。 在本次主题演讲中,他并未急于发布新品,而是用整…

    2026年3月17日
    43400