Claude Opus 4.7 发布:自主纠错、视觉能力与编程性能全面进化
Anthropic 正式发布了 Claude Opus 4.7 模型。本次更新的核心目标,与近期推出的“Routines”功能一致:旨在让AI能够自主处理更长、更复杂的任务链,并具备自我检查能力,从而减少人工监督的需求。

在定价方面,Opus 4.7 维持了与上一代 4.6 版本相同的标准:输入每百万 Token 5美元,输出每百万 Token 25美元。
1. 具备自我验证能力的模型
Opus 4.7 引入了一项此前并不突出的关键能力:在向用户提交最终答案前,模型会先进行一轮内部的自我验证。
当发现问题时,模型会在内部进行修正,然后再输出优化后的结果。这一机制在AI自主运行的场景下意义重大。过去,让Claude执行长达数小时的任务时,可能直到最后才发现中间步骤出了差错。现在,它能够自行发现并纠正许多这类错误,从而减少了一层需要人工介入的环节。

根据Rakuten的应用反馈,使用Opus 4.7运行生产任务,问题解决率提升了3倍,代码质量获得了“10个数量级以上”的改进。在多步骤工作流测试中,Opus 4.7相比4.6性能提升了14%,工具调用出错率下降了约三分之一,同时Token消耗也有所降低。

其结果是在提升可靠性的同时,也实现了成本优化。
2. 视觉能力大幅跃升
本次更新在视觉能力上的提升尤为显著。
Opus 4.7 支持处理最长边高达 2,576 像素的图像,分辨率约为375万像素,是之前模型处理能力的3倍以上。官方列举的应用场景包括生成界面原型、制作演示文稿、解读化学结构和技术图表等对细节精度要求极高的任务。

根据 XBOW 提供的数据,在计算机视觉感知基准测试中,Opus 4.7 取得了 98.5% 的得分,而 Opus 4.6 的得分为 54.5%。从54.5%到98.5%的飞跃,被评价为“彻底解决了我们的主要痛点”。

这一变化对于需要视觉理解的自主任务至关重要。过去,让AI识别截图、读取用户界面或处理图文混排文档时,存在明显的失误率。此次分辨率和理解能力的跃升,为AI处理复杂视觉任务奠定了坚实的基础。
3. 持续进化的编程能力
在编程方面,Opus 4.7 也展现出了更强的实力。

Cursor 在 CursorBench 上的测试数据显示:Opus 4.7 得分为70%,而 Opus 4.6 为58%。

Notion 的反馈指出,模型整体性能提升了14%,工具调用出错率下降约三分之一,并且首次通过了“隐性需求”测试项——即那些未被明确陈述但理应被理解的需求。

CodeRabbit 将其用于代码审查时发现,针对最复杂Pull Request的代码变更召回率提升了10%以上,且精准度保持不变。Databricks 则在文档推理任务中观察到,错误率减少了21%。
4. 新增 /ultrareview 深度代码审查功能
Claude Code 此次新增了 /ultrareview 命令,专门用于执行一轮深度的代码审查。

该功能会完整阅读所有代码改动,并找出一个严谨的代码审查者所能发现的问题,包括潜在的缺陷和设计层面的隐患。用户无需另开启对话或手动提出审查请求,只需一条命令,模型即可自动运行并生成审查报告。
同时,“Auto Mode”现已向 Max 计划用户开放,使得运行长任务时被打断的频率降低。结合近期上线的 Routines 功能,用户可以在睡前配置任务并设置触发条件,次日早晨查看结果。这使得“AI代为值守”的工作流程变得更加顺畅。

5. API 新增推理精细度档位
对于开发者,本次更新在API中新增了 xhigh 推理等级,位于原有的 high 和 max 档位之间。此前 high 与 max 之间的跨度较大,新增的档位允许在推理深度与响应速度之间进行更精细的权衡。

此外,默认的推理努力级别也从 high 提升至了 xhigh。这意味着开发者无需更改任何配置,模型默认就会以比以往更仔细的模式运行。
还有处于测试阶段的 “Task Budgets” 功能,它让Claude在执行较长任务时能够自主管理Token消耗,知道在何处应投入更多资源,在何处可以节省。该功能目前仍为Beta版,但代表了正确的优化方向。
6. 迁移注意事项
本次更新包含了分词器的升级。对于相同的输入内容,Token数量可能比之前多出约0%到35%。

此举的好处是模型能接收到更完整的信息,从而输出更可靠的结果。代价则是处理成本可能相应上升。

如果现有工作流对Token计费敏感,在切换模型时需留意此变化。官方提供了详细的迁移指南以供参考。
7. 总结:自动化边界的拓展
Anthropic 此次发布的模型,能够处理更长的任务链,具备自我检查能力,且视觉理解大幅增强。

不久前,Routines功能上线,使得AI能够主动巡逻,无需人工触发即可自主监控。再结合超长上下文、子智能体、/ultrareview命令等特性,每一次单独的更新看似都是“一项小功能”。

但当这些更新组合在一起观察时,一个趋势正在悄然发生:需要人类介入的环节正在逐步减少。
AI可以在凌晨审阅代码提交,在周末同步文档,或在用餐时间运行测试。这促使我们思考:技术的这一演进方向,究竟意味着什么?
相关链接:
* 官方发布博客:https://www.anthropic.com/news/claude-opus-4-7
* 系统卡片:https://anthropic.com/claude-opus-4-7-system-card
* 迁移指南:https://platform.claude.com/docs/en/about-claude/models/migration-guide
* Claude Code Routines 文档:https://code.claude.com/docs/en/routines
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30647

