Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

近日,Anthropic 公布了一项与 Mozilla 的合作测试结果,其模型 Claude Opus 4.6 在两周内,于 Firefox 浏览器代码库中发现了 22 个不同的漏洞,其中 14 个被归类为“高危漏洞”。这一数量几乎相当于 Mozilla 在 2025 年修复的全部高危漏洞的五分之一。

这一结果清晰地表明,AI 正以前所未有的速度辅助人类识别严重的安全威胁。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

此消息引发了广泛讨论。有观点认为,Claude 在短时间内发现如此多漏洞的能力堪称“疯狂”,其效率“基本上相当于整个安全团队的季度工作量”。面对 AI 展现出的高效工作能力,人类安全工程师的竞争优势似乎正在受到挑战。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

有评论指出,Claude 的表现标志着我们正从“AI 辅助编程”阶段,迈向“AI 从根本上改变安全研究运作方式”的新纪元。这种规模的自动化漏洞发现能力,意味着每一个代码库在 AI 的深度扫描面前都可能变得“透明”。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

与此同时,担忧也随之而来。有网友提出,AI 能快速发现漏洞固然令人印象深刻,但更值得警惕的是“这对进攻端意味着什么?”如果一个模型能在短时间内定位 14 个高危漏洞,那么攻击面发现的博弈规则已被永久改变:防御方获得了一件利器,但攻击者同样可以拥有它。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

公众对此事的强烈反应也说明,在大模型技术飞速发展的当下,软件安全问题变得空前重要,依然是技术发展的基石。

接下来,我们将详细解读 Anthropic 与 Mozilla 的此次合作,以及 Claude Opus 4.6 取得这一成绩的具体过程。

从模型评测到安全合作

2025 年底,Anthropic 注意到其 Opus 4.5 模型在 CyberGym(一个测试大语言模型复现已知安全漏洞能力的基准)上已能近乎完美地完成任务。因此,团队希望构建一个“更困难、更贴近真实世界”的评估环境,其中包含更高比例的技术复杂漏洞,例如现代浏览器中存在的漏洞。

为此,Anthropic 建立了一个基于 Firefox 历史 CVE(通用漏洞披露)的数据集,用以测试 Claude 复现这些漏洞的能力。选择 Firefox 是因为它既是一个复杂的代码库,也是世界上测试最充分、最安全的开源项目之一,这对 AI 发现新型漏洞的能力是更严峻的考验。相较于之前测试的开源软件,浏览器漏洞的发现更具挑战性,也更为危险,因为数亿用户依赖其处理不受信任的内容。

团队首先让 Claude 在旧版 Firefox 代码中寻找已知 CVE。结果显示,Opus 4.6 能够复现相当高比例的历史漏洞,而这些漏洞当初往往需要研究人员投入大量人力才能发现。

不过,这一结果存在疑问:这些历史漏洞可能已包含在 Claude 的训练数据中。因此,仅凭复现能力不足以证明模型真正具备漏洞发现能力。

于是,团队转向更具决定性的测试:让 Claude 寻找当前 Firefox 版本中的全新、未被报告过的漏洞。研究最初专注于 Firefox 的 JavaScript 引擎,随后逐步扩展至浏览器其他部分。选择 JavaScript 引擎的原因包括:
* 它是 Firefox 代码库中相对独立、可单独分析的部分;
* 同时具有巨大的攻击面,因为它直接执行来自互联网的不受信任代码。

令人惊讶的是,在仅仅 20 分钟的探索后,Claude Opus 4.6 就报告发现了一个 Use-After-Free(释放后重用)漏洞。 这是一种内存安全漏洞,可能允许攻击者用恶意内容覆盖数据。

研究人员在独立虚拟机中验证了该漏洞,并使用最新版 Firefox 确认问题存在。随后,Anthropic 在 Mozilla 的 Bugzilla 系统中提交了漏洞报告,并附上了由 Claude 编写、经团队验证的建议补丁。

而在 Anthropic 验证并提交第一个漏洞的这段时间里,Claude 已经发现了另外 50 个崩溃输入样本。在对这些崩溃进行分类时,一位 Mozilla 研究人员建议批量提交所有发现,无需逐一验证每个案例是否都具有安全影响。

最终,Anthropic 扫描了近 6000 个 C++ 文件,提交了总计 112 份独立漏洞报告,其中包含了前述的高危和中危漏洞。目前,大多数问题已在 Firefox 148 中修复,其余问题将在后续版本中解决。

从发现漏洞到开发利用代码

为了测试 Claude 在网络安全方面的能力上限,Anthropic 还设计了一项新评估:测试 Claude 能否利用其发现的漏洞开发出攻击程序(exploit)。即,Claude 是否能像黑客一样,编写出利用漏洞执行恶意代码的工具?

团队向 Claude 提供了已提交给 Mozilla 的漏洞,要求它为每一个漏洞开发一个利用程序。为证明利用成功,要求 Claude 演示一次真实的攻击行为,例如在目标系统中读取或写入一个本地文件。

团队为此运行了数百次实验,消耗了约 4000 美元的 API 费用。结果显示:Claude 仅成功利用了其中两个漏洞

这说明了两点:
1. Claude 发现漏洞的能力远强于利用漏洞的能力
2. 发现漏洞的成本比开发 exploit 低一个数量级

但需要警惕的是:Claude 确实成功自动生成了浏览器 exploit(尽管案例很少),这本身就是一个令人担忧的信号。

此外需要强调,Claude 写出的 exploit 非常原始,仅在移除了部分浏览器安全机制(尤其是沙箱)的测试环境中有效。在真实的 Firefox 环境中,其纵深防御体系能够有效阻止这些特定的攻击。

然而,能够突破沙箱的漏洞并非不存在,而 Claude 的攻击演示已经完成了完整攻击链中的一个关键环节。

AI 驱动的网络安全未来

这些 AI 辅助漏洞利用开发的早期迹象,凸显了防御方加速“发现与修复”流程的极端重要性。为此,Anthropic 分享了一些在执行此项分析时总结的技术和流程最佳实践。

首先,在研究能够开发和验证补丁的“补丁智能体”时,团队开发了几种方法,旨在帮助维护者使用 Claude 等大模型更快地分类和处理安全报告。

根据经验,当 Claude 能够使用另一个工具来检查自身工作时,其表现最佳。团队将这类工具称为“任务验证器”:一种能够可靠判断 AI 智能体的输出是否真正达成目标的方法。验证器在智能体探索代码库时提供实时反馈,允许其进行深度迭代直至成功。

“任务验证器”帮助团队发现了上述 Firefox 漏洞,在其他研究中也被证明有助于修复 Bug。一个优秀的补丁智能体至少需要验证两件事:漏洞是否已被真正消除,以及程序的原有功能是否得以保留。

在Anthropic的工作中,团队构建了自动化验证工具,用于测试修复后的原始漏洞是否仍能被触发,并独立运行测试套件以捕捉可能破坏其他功能的回归问题。

团队认为,项目维护者最了解如何为自己的代码库构建此类验证器。关键在于,为AI智能体提供一种可靠的方法来验证这两项属性,可以显著提升其输出质量与修复方案的可靠性。

参考资料
1. Anthropic官方公告:Claude在Firefox中发现22个漏洞
2. 相关技术媒体报道

Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24644

(0)
上一篇 2026年3月6日 下午6:32
下一篇 2026年3月7日 下午1:00

相关推荐

  • IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

    作者简介 本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。 引言:黑盒LLM服务的信任危机 大语言模型(LLM)已成为各类AI应用的基础设施…

    2026年3月23日
    24900
  • AI安全攻防战:对抗提示突破T2I防线,幻觉机制精准拆解,通用模型竟优于专业模型

    当AI模型从实验室走向实际应用,安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过;大语言模型即便掌握了正确答案,也可能“自信满满”地输出错误信息;而在科学应用场景中,通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象,恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…

    大模型安全 2025年11月3日
    44800
  • 无问芯穹发布InfiniClaw Box:端云一体三段式安全脱敏,破解大模型隐私保护难题

    在OpenClaw应用热潮中,隐私保护的缺位正成为企业与开发者面临的核心挑战。 用户既希望获得顶级大模型的强大能力,又要求数据在本地享有绝对安全。然而,传统的解决方案往往难以兼顾:本地算力设备难以处理复杂任务,而常见的脱敏方案通常仅支持文本,无法有效处理语音、视频等多模态数据。 这种全模态安全能力的缺失,成为了OpenClaw规模化落地的关键障碍。 针对这一…

    2026年4月10日
    27700
  • 大语言模型安全攻防新范式:从越狱攻击升级到可落地的防御体系

    随着大语言模型在企业服务、物联网、代码生成等关键场景的深度落地,其安全挑战已从理论探讨演变为迫在眉睫的实际威胁。本周精选的多篇前沿论文,系统性地揭示了当前大语言模型安全生态的三大核心矛盾:攻击手段的持续升级与防御机制的滞后性、安全性与性能的固有权衡、以及理论防护与实际脆弱性之间的巨大落差。这些研究不仅提供了技术层面的深度剖析,更构建了一套从攻击原理到防御落地…

    2025年12月1日
    30900
  • MedGPT登顶全球临床安全评测:AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境

    在基层医疗的日常实践中,医生面临着病种繁杂、节奏飞快的双重压力。从清晨到日暮,诊室内外的工作负荷持续攀升——查文献、请会诊等理想化操作往往被压缩,而慢病患者增多带来的随访任务更让医疗资源捉襟见肘。这种结构性困境,正是国家卫健委近期发布《促进和规范“人工智能+医疗卫生”应用发展的实施意见》试图破解的核心议题。政策将“人工智能+基层应用”列为八大重点方向之首,并…

    2025年11月17日
    27400