Anthropic发布Claude Opus 4.7:编程能力大幅提升,视觉输入分辨率翻三倍

Anthropic发布Claude Opus 4.7:编程能力大幅提升,视觉输入分辨率翻三倍

Anthropic 正式发布 Claude Opus 4.7。本次更新的核心在于软件工程能力的显著提升。Opus 4.7 在最复杂的编程任务上表现突出,用户反馈称其能够独立处理以往需要密切监督的复杂代码工作。该模型能够执行长时间、多步骤的任务,严格遵守指令,并在最终输出前自行验证结果。

Anthropic发布Claude Opus 4.7:编程能力大幅提升,视觉输入分辨率翻三倍

Opus 4.7 现已通过所有 Claude 产品、API 以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 平台提供。其定价与 Opus 4.6 保持一致:输入每百万 token 5 美元,输出每百万 token 25 美元。开发者可通过 claude-opus-4-7 标识符调用该模型。

视觉输入能力跃升

Opus 4.7 支持的图像输入分辨率大幅提高,最长边可达 2576 像素,约合 375 万总像素,是此前 Claude 系列模型的三倍以上。这一提升为需要处理密集信息截图的自动化代理、从复杂图表中提取数据以及依赖像素级细节参考的工作提供了更强大的支持。

Anthropic发布Claude Opus 4.7:编程能力大幅提升,视觉输入分辨率翻三倍

在专业任务方面,Opus 4.7 生成的用户界面、演示文稿和文档质量更高。内部评估显示,其在金融代理任务上达到了最优水平,能够完成更严谨的金融分析、制作更专业的演示文稿,并实现更紧密的跨任务整合。在覆盖金融、法律等多个高价值知识工作领域的第三方评测 GDPval-AA 中,Opus 4.7 同样取得了最优成绩。


重要提示: Opus 4.7 的指令遵循能力有了实质性增强,这可能导致针对旧模型编写的提示词产生预期之外的结果。旧模型可能宽松解读或跳过部分指令,而 Opus 4.7 会尝试逐字严格执行。用户可能需要重新调整提示词和工作流程。

模型的记忆能力也有所改善。Opus 4.7 更擅长利用文件系统存储关键信息,能够在多个长时间运行的任务间保持记忆连续性,从而在接手新任务时所需的前置上下文更少。


安全特性

此前,Anthropic 宣布了“Project Glasswing”,旨在探讨 AI 模型在网络安全领域的风险与价值,并计划先在能力较弱的模型上测试新的网络安全防护措施,再逐步应用于更强大的模型。

Opus 4.7 是这一路线图中的首个模型。其网络攻击能力低于 Mythos Preview 模型,Anthropic 在训练过程中有意抑制了这方面的能力。发布时,模型已内置自动检测并拦截违禁或高风险网络安全用途的防护机制。Anthropic 表示,此次部署的经验将为未来大规模推出 Mythos 级别模型提供数据支持。

有合法网络安全需求(如漏洞研究、渗透测试、红队评估等)的安全专业人员,可以申请加入新推出的“网络验证计划”(Cyber Verification Program)。

整体安全表现与 Opus 4.6 相近:在欺骗、谄媚、配合滥用等问题上发生率较低。在诚实性和抵御恶意提示注入攻击方面有所改进;但在涉及管制物质的危害减少建议上,Opus 4.7 的表现略有退步。对齐评估结论认为,模型总体表现良好且值得信赖,但尚未达到理想状态。目前最佳对齐模型仍是 Mythos Preview。详细安全评估可参阅《Claude Opus 4.7 系统卡片》。


同步上线的新功能

更细致的推理控制:新增“超高”(xhigh)努力级别,位于“高”(high)和“最大”(max)之间,使用户能在推理深度与响应速度之间进行更精细的调节。在 Claude Code 中,所有套餐的默认努力级别已提升至“超高”。测试编程和代理场景时,建议从“高”或“超高”级别起步。

API 更新:除了更高分辨率的图像支持外,“任务预算”(task budgets)功能进入公开测试阶段,帮助开发者控制 Claude 在长时间运行任务中的 token 消耗分配。

Claude Code 更新:新增 /ultrareview 斜杠命令,可专门用于读取代码变更,并标出仔细审查者可能发现的 Bug 和设计问题。Pro 和 Max 用户各获得三次免费体验机会。此外,“自动”(Auto)模式现已向 Max 用户开放。在此模式下,Claude 将代替用户作出权限决策,从而在长任务运行时减少对用户的打扰,同时比跳过所有权限检查更为安全。


从 Opus 4.6 升级前的注意事项

首先,Opus 4.7 使用了更新的分词器,相同文本输入对应的 token 数量约为原来的 1.0 到 1.35 倍,具体倍数取决于内容类型。其次,在代理场景的后续交互轮次中,Opus 4.7 在较高努力级别下会产生更多的内部推理过程文本,在提升可靠性的同时也会增加输出 token 的数量。

Anthropic发布Claude Opus 4.7:编程能力大幅提升,视觉输入分辨率翻三倍

用户可以通过调整努力级别参数、设置任务预算,或在提示词中要求模型更简洁作答来控制 token 用量。Anthropic 内部测试显示,在编程评估任务中,各努力级别下的综合 token 消耗(输入+输出)仍有改善,但仍建议在实际应用流量上进行单独测量。详细升级建议请参阅官方迁移指南。


来源:https://www.anthropic.com/news/claude-opus-4-7


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30653

(0)
上一篇 8小时前
下一篇 2小时前

相关推荐

  • 突破硬件限制:异步采集与视频扩散模型协同实现低成本高速4D重建

    在三维视觉领域,捕捉高速动态场景并将其转化为可供分析、交互的数字化4D时空一直是个技术难题。无论是影视制作中需要捕捉的瞬间动作细节,还是虚拟现实应用中用户期望的沉浸式交互体验,都对高速4D重建技术提出了迫切需求。然而,传统方法面临硬件成本高昂、数据通量巨大等瓶颈,难以实现大规模应用。 当前4D采集技术主要面临两大挑战。硬件方面,传统高速摄影需要120FPS甚…

    2025年12月14日
    31600
  • 国产模型GLM-5.1海外定价引争议:中国用户469元,西方用户160美元,Hugging Face负责人力挺其性能

    国产模型GLM-5.1海外定价引争议:中国用户469元,西方用户160美元 近日,国产大模型GLM-5.1的定价策略在海外社区引发广泛讨论。有用户发现,其“Max计划”在中国市场的价格为469元人民币(约合68美元),而面向西方用户的价格则高达160美元,价差超过一倍。 这一差异化的定价方式被部分海外用户称为“老外税”。据悉,通过微信或支付宝进行注册和支付,…

    1天前
    13000
  • AI赋能Web 3D革命:Three.js周下载量突破400万,艺术生退学打造的开源传奇

    一个并不常被普通用户提起的开源项目,刚刚刷新了自己的历史纪录。 近日,Three.js 官方 X 账号公布:Three.js 每周下载量已突破 400 万。 你或许没用过 Three.js,也未必听过它的名字,但你大概率已经见过它的作品。那些可以旋转的 3D 商品展示页、会随鼠标晃动的官网首页、可交互的数据可视化,甚至一些看似只是酷炫动画的 Web 页面背后…

    2026年2月2日
    50500
  • DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议

    DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议 DeepSeek服务中断超过8小时,引发用户广泛讨论。此次宕机并非普通的服务器故障,而被许多用户解读为模型重大升级的前兆。 在服务中断前,已有大量用户报告DeepSeek网页版出现显著变化,模型能力大幅提升。例如,在经典的“用SVG画鹈鹕骑自行车”任务中,3月29日版本的构图与色彩表现明显优于…

    2026年3月30日
    28900
  • 20万大奖!全球首个AI视频生成一致性挑战赛开启,AAAI 2026大佬云集定义行业新标准

    随着AI视频生成技术的快速发展,“一致性”已成为制约其迈向更高质量和更广泛应用的核心挑战。视频中频繁出现的逻辑谬误、时空错乱以及角色风格突变等问题,严重影响了内容的连贯性与可信度。 为应对这一关键瓶颈,在人工智能顶级会议AAAI 2026的研讨会期间,将举办一场专注于该问题的竞赛——“从片段到原生:视频生成模型中的一致性(CVM)”。 该挑战赛由北京大学袁粒…

    2025年12月17日
    28600