Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

周四晚间,Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升,尤其是在处理最复杂的任务方面。根据用户反馈,现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务,精准执行指令,并在返回结果前设计出验证自身输出的方法。

该模型的多模态能力也得到增强:能够识别更高分辨率的图像,在执行专业任务时更具品味和创造力,可生成更高质量的界面、幻灯片和文档。尽管其功能全面性不及同期公布的 Claude Mythos Preview,但在多项基准测试中表现均优于 Opus 4.6。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

如图所示,其在 SWE-bench Pro 上的得分达到 64.3%,高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 产品、API 以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台推出。定价与 Opus 4.6 保持一致:输入 token 每百万个 5 美元,输出 token 每百万个 25 美元。

早期使用反馈表明,新模型在处理复杂任务时更加严谨和一致,在最困难的编程任务上进步明显。以下是 Opus 4.7 早期测试的一些亮点:

  • 指令执行能力显著提升:这意味着为旧版本编写的提示词有时可能产生意外结果。旧版本对指令的解释可能较为宽泛或跳过部分内容,而 Opus 4.7 会严格遵循指令。用户需要据此调整提示词和相关设置。
  • 增强的多模态支持:Opus 4.7 能够处理长边高达 2576 像素(约 375 万像素)的图像,分辨率处理能力是之前 Claude 模型的三倍以上。这为依赖精细视觉细节的应用(如读取密集屏幕截图、从复杂图表中提取数据等)开辟了空间。
  • 实际应用能力提升:除了在财务代理评估中达到领先水平,Anthropic 内部测试显示,Opus 4.7 能更高效地进行财务分析,生成严谨的分析模型和更专业的演示文稿,并在各项任务间实现更紧密的整合。其在 GDPval-AA 评估中也处于领先地位。
  • 优化的记忆利用:Opus 4.7 更擅长利用文件系统记忆。它能记住长时间、多会话工作中的重要笔记,并利用这些信息继续执行新任务,从而降低对新任务上下文信息的依赖。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元
Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

Claude Code 负责人 Boris Cherny 介绍了 Claude Opus 4.7 的一些新特性:

1. 自动模式
Opus 4.7 擅长执行复杂、长时间运行的任务,如深度研究、代码重构、构建复杂功能等。自动模式作为一种更安全的替代方案,将权限提示路由至一个基于模型的分类器,以决定命令是否安全执行。若安全,则自动批准。这使得模型运行时无需全程监督,并允许用户并行运行多个 Claude 实例。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

2. 新的 /fewer-permission-prompts 技能
该技能会扫描会话历史记录,找出常见且安全的 bash 和 MCP 命令,这些命令通常会导致重复的权限提示。随后,它会推荐一个可加入权限白名单的命令列表,帮助用户优化权限设置,避免不必要的提示。

3. 「回顾」功能
“回顾”是对智能体已完成工作及后续行动的简短总结,可在几分钟或几小时后返回到长时间运行的会话中,帮助用户快速了解进度。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

4. 专注模式
CLI 中加入了专注模式,该模式会隐藏所有中间步骤,仅展示最终结果。用户可通过 /focus 命令切换此模式。

5. 自适应的思考深度
Opus 4.7 采用自适应思考机制而非固定的思考预算。用户可通过调整“努力程度”来控制模型的思考深度。较低的努力程度带来更快的响应和更低的 token 消耗,较高的努力程度则能激发最高的智能和能力。Boris Cherny 建议,大多数任务可使用 xhigh 努力程度,最困难的任务使用 max 努力程度(仅对当前会话有效)。用户可使用 /effort 命令设置努力程度。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

6. 为 Claude 提供验证工作的方式
确保 Claude 有办法验证其工作成果,一直是将其产出提升 2-3 倍的有效方法,在 4.7 版本中这一点更为重要。验证方式因任务而异:对于后端工作,确保 Claude 知道如何启动服务器进行端到端测试;对于前端工作,可使用 Claude Chromium 扩展让其控制浏览器;对于桌面应用,则可使用 computer use。Boris Cherny 提到,他最近的许多提示词都类似:“Claude 做 blah blah /go”。/go 是一种技能,它让 Claude 1) 使用 bash、浏览器或 computer use 进行端到端自我测试;2) 运行 /simplify 技能;3) 提交一个 PR。

上周,Anthropic 发布了“Project Glasswing”项目,重点探讨了 AI 模型在网络安全领域的风险与优势。Anthropic 宣布将限制功能更强的 Claude Mythos Preview 的发布范围,并首先在功能较弱的模型上测试新的网络安全防护措施。

Opus 4.7 即是首个此类模型:其网络安全能力弱于 Mythos Preview(Anthropic 在训练中尝试了多种方法来逐步降低此能力)。发布的 Opus 4.7 配备了安全防护措施,能够自动检测并阻止表明存在违禁或高风险网络安全用途的请求。Anthropic 希望从这些安全措施的实际部署中积累经验,最终实现 Mythos 级别模型的广泛发布目标。

总体而言,Opus 4.7 的安全性能与 Opus 4.6 相似。Anthropic 的评估显示,其在出现欺骗、奉承或与滥用者合作等令人担忧的行为方面比例较低。在某些指标上,例如诚实度和抵御恶意“快速注入”攻击的能力,Opus 4.7 比 Opus 4.6 有所改进;但在其他指标上,例如在提供管制药物相关过于详细的减害建议方面,Opus 4.7 略有不足。

Anthropic 的一致性评估报告指出,Claude Opus 4.7 “总体上一致性良好且值得信赖,但其行为并非完全理想”。评估同时显示,Mythos Preview 模型在一致性方面表现最佳。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

上图展示了自动化行为审核得出的总体行为偏差得分。

除了核心模型更新,Anthropic 还同步推出了以下功能改进:

  • 更精细的难度控制:Opus 4.7 在原有的 highmax 级别之间新增了一个 xhigh(超高)级别,使用户能更精确地平衡解决复杂问题时的推理速度与延迟。在 Claude Code 中,所有套餐的默认难度级别已提升至 xhigh。官方建议,在测试编码和智能体场景时,可从 highxhigh 级别开始。
  • Claude 平台(API)更新:除了支持更高分辨率的图像输入,Anthropic 还推出了公开测试版的“任务预算”功能。开发者可借此引导 Claude 的 token 消耗分配,使其能优先处理长时间运行的任务。
  • Claude Code 更新
    • 新增 /ultrareview 斜杠命令,可创建一个专门的代码审查会话,通读所有更改并标记出可能被遗漏的错误与设计问题。Claude Code Pro 和 Max 用户可获得三次免费的试用机会。
    • 自动模式(Auto Mode)现已扩展至 Max 用户。在此权限选项下,Claude 可自主做出决策,从而运行更长时间的任务、减少中断,并降低因人为选择跳过权限而带来的风险。

Opus 4.7 是 Opus 4.6 的直接升级版,但有两项影响 token 使用的变化值得注意:
1. Opus 4.7 采用了更新的分词器,改进了文本处理方式。外界推测这很可能意味着它是一个新的基础模型,甚至可能是从 Mythos 提炼而来。代价是,相同的输入内容可能会被映射为更多的 token,根据内容类型不同,增幅大约在 1.0 到 1.35 倍之间。
2. 模型在 high 及以上难度任务中会进行更多“思考”,尤其在多轮对话的后期。这提升了解决复杂问题的可靠性,但也意味着可能产生更多的输出 token。

此外,Opus 4.7 的知识截止日期也已更新:

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

用户可通过多种方式管理 token 消耗,例如使用工作量参数、调整任务预算或引导模型简化输出。根据 Anthropic 的内部测试,最终效果是积极的——内部编码评估显示,所有工作量级别的代码质量相对于 token 使用率均有所提升(如下图所示)。但 Anthropic 仍建议在实际应用流量中进行评估。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

(上图:在不同工作量级别下,对内部智能编码评估的得分与 token 使用情况进行对比。该评估中模型在单次用户提示下自主运行,因此结果可能无法完全代表交互式编码场景下的 token 使用情况。)

Anthropic 已编写迁移指南,提供了从 Opus 4.6 升级到 Opus 4.7 的更多建议。

Opus 4.7 发布后,用户进行了广泛测试。多数反馈认为新模型效果显著,但也有用户指出其 token 消耗量非常大。

值得注意的是,在同一时期,千问开源了 Qwen3.6-35B-A3B 模型(350亿参数,激活30亿)。有用户表示,在 MacBook Pro M5 上通过 LM Studio 运行该模型生成“鹈鹕骑自行车”图像的效果优于 Opus 4.7。

Claude Opus 4.7震撼发布:编程能力飙升64.3%,图像识别提升3倍,开启自动模式新纪元

当然,这并不能直接证明 Qwen3.6-35B-A3B 整体能力更强。更多的性能对比与使用体验,仍有待社区的进一步验证。

参考资料
* Anthropic 官方公告
* 相关技术分析与推文
* Qwen 官方博客
* 第三方对比评测文章


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30692

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • AI生成操作系统新突破!上海交大提出文件系统开发新范式:从此只需写规约

    还记得《流浪地球2》里的那台550W量子计算机吗? 电影里,MOSS最让人印象深刻的点,除了其强大算力,还有它可以根据需求,实时生成底层操作系统的能力。 如果现在告诉你,我们已经在从“人类需求”生成“底层系统”这件事上迈出了关键一步呢? 来自上海交大IPADS实验室的研究团队,面对自动生成操作系统核心组件的难题,做出了全新的尝试。这项研究成果也即将亮相文件系…

    2025年12月21日
    29700
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…

    2025年12月20日
    39700
  • MoGraphGPT:零代码构建复杂交互场景,自然语言+涂鸦让创意可视化

    想要快速制作网页小游戏、交互式动画或教学演示,却受限于复杂的代码逻辑与多元素交互调试?尽管当前的大语言模型或AI Agent能够辅助生成代码和搭建交互场景,但在处理多元素交互时仍易出错,且纯文本的交互方式难以支持直观的视觉调整。 近日,来自香港浸会大学、香港科技大学、香港城市大学及深圳大学的研究团队提出了一种名为MoGraphGPT的创新系统。该系统结合了上…

    2026年3月21日
    21500
  • VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

    本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

    2025年12月23日
    29700
  • PF-LLM:大语言模型破解硬件预取困境,静态代码分析实现智能内存访问优化

    关键词:硬件预取、内存墙、大语言模型、CPU 微架构、硬件-软件协同设计 在追求单核性能的征途上,CPU 设计师们正面临一道难以逾越的天堑——“内存墙”。这道墙的另一边,是主存(DRAM)动辄数百个周期的访问延迟,而 CPU 核心的运算速度却已逼近物理极限。为了填平这道墙,现代处理器普遍采用了一项关键技术:硬件数据预取。它像一个未卜先知的预言家,提前将程序未…

    2026年3月31日
    22600