周四晚间,Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。
Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升,尤其是在处理最复杂的任务方面。根据用户反馈,现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务,精准执行指令,并在返回结果前设计出验证自身输出的方法。
该模型的多模态能力也得到增强:能够识别更高分辨率的图像,在执行专业任务时更具品味和创造力,可生成更高质量的界面、幻灯片和文档。尽管其功能全面性不及同期公布的 Claude Mythos Preview,但在多项基准测试中表现均优于 Opus 4.6。

如图所示,其在 SWE-bench Pro 上的得分达到 64.3%,高于 GPT-5.4 的 57.7%。
Opus 4.7 已在所有 Claude 产品、API 以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台推出。定价与 Opus 4.6 保持一致:输入 token 每百万个 5 美元,输出 token 每百万个 25 美元。
早期使用反馈表明,新模型在处理复杂任务时更加严谨和一致,在最困难的编程任务上进步明显。以下是 Opus 4.7 早期测试的一些亮点:
- 指令执行能力显著提升:这意味着为旧版本编写的提示词有时可能产生意外结果。旧版本对指令的解释可能较为宽泛或跳过部分内容,而 Opus 4.7 会严格遵循指令。用户需要据此调整提示词和相关设置。
- 增强的多模态支持:Opus 4.7 能够处理长边高达 2576 像素(约 375 万像素)的图像,分辨率处理能力是之前 Claude 模型的三倍以上。这为依赖精细视觉细节的应用(如读取密集屏幕截图、从复杂图表中提取数据等)开辟了空间。
- 实际应用能力提升:除了在财务代理评估中达到领先水平,Anthropic 内部测试显示,Opus 4.7 能更高效地进行财务分析,生成严谨的分析模型和更专业的演示文稿,并在各项任务间实现更紧密的整合。其在 GDPval-AA 评估中也处于领先地位。
- 优化的记忆利用:Opus 4.7 更擅长利用文件系统记忆。它能记住长时间、多会话工作中的重要笔记,并利用这些信息继续执行新任务,从而降低对新任务上下文信息的依赖。







Claude Code 负责人 Boris Cherny 介绍了 Claude Opus 4.7 的一些新特性:
1. 自动模式
Opus 4.7 擅长执行复杂、长时间运行的任务,如深度研究、代码重构、构建复杂功能等。自动模式作为一种更安全的替代方案,将权限提示路由至一个基于模型的分类器,以决定命令是否安全执行。若安全,则自动批准。这使得模型运行时无需全程监督,并允许用户并行运行多个 Claude 实例。

2. 新的 /fewer-permission-prompts 技能
该技能会扫描会话历史记录,找出常见且安全的 bash 和 MCP 命令,这些命令通常会导致重复的权限提示。随后,它会推荐一个可加入权限白名单的命令列表,帮助用户优化权限设置,避免不必要的提示。
3. 「回顾」功能
“回顾”是对智能体已完成工作及后续行动的简短总结,可在几分钟或几小时后返回到长时间运行的会话中,帮助用户快速了解进度。

4. 专注模式
CLI 中加入了专注模式,该模式会隐藏所有中间步骤,仅展示最终结果。用户可通过 /focus 命令切换此模式。
5. 自适应的思考深度
Opus 4.7 采用自适应思考机制而非固定的思考预算。用户可通过调整“努力程度”来控制模型的思考深度。较低的努力程度带来更快的响应和更低的 token 消耗,较高的努力程度则能激发最高的智能和能力。Boris Cherny 建议,大多数任务可使用 xhigh 努力程度,最困难的任务使用 max 努力程度(仅对当前会话有效)。用户可使用 /effort 命令设置努力程度。

6. 为 Claude 提供验证工作的方式
确保 Claude 有办法验证其工作成果,一直是将其产出提升 2-3 倍的有效方法,在 4.7 版本中这一点更为重要。验证方式因任务而异:对于后端工作,确保 Claude 知道如何启动服务器进行端到端测试;对于前端工作,可使用 Claude Chromium 扩展让其控制浏览器;对于桌面应用,则可使用 computer use。Boris Cherny 提到,他最近的许多提示词都类似:“Claude 做 blah blah /go”。/go 是一种技能,它让 Claude 1) 使用 bash、浏览器或 computer use 进行端到端自我测试;2) 运行 /simplify 技能;3) 提交一个 PR。
上周,Anthropic 发布了“Project Glasswing”项目,重点探讨了 AI 模型在网络安全领域的风险与优势。Anthropic 宣布将限制功能更强的 Claude Mythos Preview 的发布范围,并首先在功能较弱的模型上测试新的网络安全防护措施。
Opus 4.7 即是首个此类模型:其网络安全能力弱于 Mythos Preview(Anthropic 在训练中尝试了多种方法来逐步降低此能力)。发布的 Opus 4.7 配备了安全防护措施,能够自动检测并阻止表明存在违禁或高风险网络安全用途的请求。Anthropic 希望从这些安全措施的实际部署中积累经验,最终实现 Mythos 级别模型的广泛发布目标。
总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似。Anthropic 的评估显示,其在出现欺骗、奉承或与滥用者合作等令人担忧的行为方面比例较低。在某些指标上,例如诚实度和抵御恶意“快速注入”攻击的能力,Opus 4.7 比 Opus 4.6 有所改进;但在其他指标上,例如在提供管制药物相关过于详细的减害建议方面,Opus 4.7 略有不足。
Anthropic 的一致性评估报告指出,Claude Opus 4.7 “总体上一致性良好且值得信赖,但其行为并非完全理想”。评估同时显示,Mythos Preview 模型在一致性方面表现最佳。

上图展示了自动化行为审核得出的总体行为偏差得分。
除了核心模型更新,Anthropic 还同步推出了以下功能改进:
- 更精细的难度控制:Opus 4.7 在原有的
high和max级别之间新增了一个xhigh(超高)级别,使用户能更精确地平衡解决复杂问题时的推理速度与延迟。在 Claude Code 中,所有套餐的默认难度级别已提升至xhigh。官方建议,在测试编码和智能体场景时,可从high或xhigh级别开始。 - Claude 平台(API)更新:除了支持更高分辨率的图像输入,Anthropic 还推出了公开测试版的“任务预算”功能。开发者可借此引导 Claude 的 token 消耗分配,使其能优先处理长时间运行的任务。
- Claude Code 更新:
- 新增
/ultrareview斜杠命令,可创建一个专门的代码审查会话,通读所有更改并标记出可能被遗漏的错误与设计问题。Claude Code Pro 和 Max 用户可获得三次免费的试用机会。 - 自动模式(Auto Mode)现已扩展至 Max 用户。在此权限选项下,Claude 可自主做出决策,从而运行更长时间的任务、减少中断,并降低因人为选择跳过权限而带来的风险。
- 新增
Opus 4.7 是 Opus 4.6 的直接升级版,但有两项影响 token 使用的变化值得注意:
1. Opus 4.7 采用了更新的分词器,改进了文本处理方式。外界推测这很可能意味着它是一个新的基础模型,甚至可能是从 Mythos 提炼而来。代价是,相同的输入内容可能会被映射为更多的 token,根据内容类型不同,增幅大约在 1.0 到 1.35 倍之间。
2. 模型在 high 及以上难度任务中会进行更多“思考”,尤其在多轮对话的后期。这提升了解决复杂问题的可靠性,但也意味着可能产生更多的输出 token。
此外,Opus 4.7 的知识截止日期也已更新:

用户可通过多种方式管理 token 消耗,例如使用工作量参数、调整任务预算或引导模型简化输出。根据 Anthropic 的内部测试,最终效果是积极的——内部编码评估显示,所有工作量级别的代码质量相对于 token 使用率均有所提升(如下图所示)。但 Anthropic 仍建议在实际应用流量中进行评估。

(上图:在不同工作量级别下,对内部智能编码评估的得分与 token 使用情况进行对比。该评估中模型在单次用户提示下自主运行,因此结果可能无法完全代表交互式编码场景下的 token 使用情况。)
Anthropic 已编写迁移指南,提供了从 Opus 4.6 升级到 Opus 4.7 的更多建议。
Opus 4.7 发布后,用户进行了广泛测试。多数反馈认为新模型效果显著,但也有用户指出其 token 消耗量非常大。
值得注意的是,在同一时期,千问开源了 Qwen3.6-35B-A3B 模型(350亿参数,激活30亿)。有用户表示,在 MacBook Pro M5 上通过 LM Studio 运行该模型生成“鹈鹕骑自行车”图像的效果优于 Opus 4.7。

当然,这并不能直接证明 Qwen3.6-35B-A3B 整体能力更强。更多的性能对比与使用体验,仍有待社区的进一步验证。
参考资料:
* Anthropic 官方公告
* 相关技术分析与推文
* Qwen 官方博客
* 第三方对比评测文章
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30692

