Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

周四晚间，Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升，尤其是在处理最复杂的任务方面。根据用户反馈，现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务，精准执行指令，并在返回结果前设计出验证自身输出的方法。

该模型的多模态能力也得到增强：能够识别更高分辨率的图像，在执行专业任务时更具品味和创造力，可生成更高质量的界面、幻灯片和文档。尽管其功能全面性不及同期公布的 Claude Mythos Preview，但在多项基准测试中表现均优于 Opus 4.6。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

如图所示，其在 SWE-bench Pro 上的得分达到 64.3%，高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 产品、API 以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台推出。定价与 Opus 4.6 保持一致：输入 token 每百万个 5 美元，输出 token 每百万个 25 美元。

早期使用反馈表明，新模型在处理复杂任务时更加严谨和一致，在最困难的编程任务上进步明显。以下是 Opus 4.7 早期测试的一些亮点：

指令执行能力显著提升：这意味着为旧版本编写的提示词有时可能产生意外结果。旧版本对指令的解释可能较为宽泛或跳过部分内容，而 Opus 4.7 会严格遵循指令。用户需要据此调整提示词和相关设置。
增强的多模态支持：Opus 4.7 能够处理长边高达 2576 像素（约 375 万像素）的图像，分辨率处理能力是之前 Claude 模型的三倍以上。这为依赖精细视觉细节的应用（如读取密集屏幕截图、从复杂图表中提取数据等）开辟了空间。
实际应用能力提升：除了在财务代理评估中达到领先水平，Anthropic 内部测试显示，Opus 4.7 能更高效地进行财务分析，生成严谨的分析模型和更专业的演示文稿，并在各项任务间实现更紧密的整合。其在 GDPval-AA 评估中也处于领先地位。
优化的记忆利用：Opus 4.7 更擅长利用文件系统记忆。它能记住长时间、多会话工作中的重要笔记，并利用这些信息继续执行新任务，从而降低对新任务上下文信息的依赖。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

Claude Code 负责人 Boris Cherny 介绍了 Claude Opus 4.7 的一些新特性：

1. 自动模式
Opus 4.7 擅长执行复杂、长时间运行的任务，如深度研究、代码重构、构建复杂功能等。自动模式作为一种更安全的替代方案，将权限提示路由至一个基于模型的分类器，以决定命令是否安全执行。若安全，则自动批准。这使得模型运行时无需全程监督，并允许用户并行运行多个 Claude 实例。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

2. 新的 /fewer-permission-prompts 技能
该技能会扫描会话历史记录，找出常见且安全的 bash 和 MCP 命令，这些命令通常会导致重复的权限提示。随后，它会推荐一个可加入权限白名单的命令列表，帮助用户优化权限设置，避免不必要的提示。

3. 「回顾」功能
“回顾”是对智能体已完成工作及后续行动的简短总结，可在几分钟或几小时后返回到长时间运行的会话中，帮助用户快速了解进度。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

4. 专注模式
CLI 中加入了专注模式，该模式会隐藏所有中间步骤，仅展示最终结果。用户可通过 /focus 命令切换此模式。

5. 自适应的思考深度
Opus 4.7 采用自适应思考机制而非固定的思考预算。用户可通过调整“努力程度”来控制模型的思考深度。较低的努力程度带来更快的响应和更低的 token 消耗，较高的努力程度则能激发最高的智能和能力。Boris Cherny 建议，大多数任务可使用 xhigh 努力程度，最困难的任务使用 max 努力程度（仅对当前会话有效）。用户可使用 /effort 命令设置努力程度。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

6. 为 Claude 提供验证工作的方式
确保 Claude 有办法验证其工作成果，一直是将其产出提升 2-3 倍的有效方法，在 4.7 版本中这一点更为重要。验证方式因任务而异：对于后端工作，确保 Claude 知道如何启动服务器进行端到端测试；对于前端工作，可使用 Claude Chromium 扩展让其控制浏览器；对于桌面应用，则可使用 computer use。Boris Cherny 提到，他最近的许多提示词都类似：“Claude 做 blah blah /go”。/go 是一种技能，它让 Claude 1) 使用 bash、浏览器或 computer use 进行端到端自我测试；2) 运行 /simplify 技能；3) 提交一个 PR。

上周，Anthropic 发布了“Project Glasswing”项目，重点探讨了 AI 模型在网络安全领域的风险与优势。Anthropic 宣布将限制功能更强的 Claude Mythos Preview 的发布范围，并首先在功能较弱的模型上测试新的网络安全防护措施。

Opus 4.7 即是首个此类模型：其网络安全能力弱于 Mythos Preview（Anthropic 在训练中尝试了多种方法来逐步降低此能力）。发布的 Opus 4.7 配备了安全防护措施，能够自动检测并阻止表明存在违禁或高风险网络安全用途的请求。Anthropic 希望从这些安全措施的实际部署中积累经验，最终实现 Mythos 级别模型的广泛发布目标。

总体而言，Opus 4.7 的安全性能与 Opus 4.6 相似。Anthropic 的评估显示，其在出现欺骗、奉承或与滥用者合作等令人担忧的行为方面比例较低。在某些指标上，例如诚实度和抵御恶意“快速注入”攻击的能力，Opus 4.7 比 Opus 4.6 有所改进；但在其他指标上，例如在提供管制药物相关过于详细的减害建议方面，Opus 4.7 略有不足。

Anthropic 的一致性评估报告指出，Claude Opus 4.7 “总体上一致性良好且值得信赖，但其行为并非完全理想”。评估同时显示，Mythos Preview 模型在一致性方面表现最佳。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

上图展示了自动化行为审核得出的总体行为偏差得分。

除了核心模型更新，Anthropic 还同步推出了以下功能改进：

更精细的难度控制：Opus 4.7 在原有的 high 和 max 级别之间新增了一个 xhigh（超高）级别，使用户能更精确地平衡解决复杂问题时的推理速度与延迟。在 Claude Code 中，所有套餐的默认难度级别已提升至 xhigh。官方建议，在测试编码和智能体场景时，可从 high 或 xhigh 级别开始。
Claude 平台（API）更新：除了支持更高分辨率的图像输入，Anthropic 还推出了公开测试版的“任务预算”功能。开发者可借此引导 Claude 的 token 消耗分配，使其能优先处理长时间运行的任务。
Claude Code 更新：
- 新增 /ultrareview 斜杠命令，可创建一个专门的代码审查会话，通读所有更改并标记出可能被遗漏的错误与设计问题。Claude Code Pro 和 Max 用户可获得三次免费的试用机会。
- 自动模式（Auto Mode）现已扩展至 Max 用户。在此权限选项下，Claude 可自主做出决策，从而运行更长时间的任务、减少中断，并降低因人为选择跳过权限而带来的风险。

Opus 4.7 是 Opus 4.6 的直接升级版，但有两项影响 token 使用的变化值得注意：
1. Opus 4.7 采用了更新的分词器，改进了文本处理方式。外界推测这很可能意味着它是一个新的基础模型，甚至可能是从 Mythos 提炼而来。代价是，相同的输入内容可能会被映射为更多的 token，根据内容类型不同，增幅大约在 1.0 到 1.35 倍之间。
2. 模型在 high 及以上难度任务中会进行更多“思考”，尤其在多轮对话的后期。这提升了解决复杂问题的可靠性，但也意味着可能产生更多的输出 token。

此外，Opus 4.7 的知识截止日期也已更新：

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

用户可通过多种方式管理 token 消耗，例如使用工作量参数、调整任务预算或引导模型简化输出。根据 Anthropic 的内部测试，最终效果是积极的——内部编码评估显示，所有工作量级别的代码质量相对于 token 使用率均有所提升（如下图所示）。但 Anthropic 仍建议在实际应用流量中进行评估。

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元