Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

近日，Anthropic 公布了一项与 Mozilla 的合作测试结果，其模型 Claude Opus 4.6 在两周内，于 Firefox 浏览器代码库中发现了 22 个不同的漏洞，其中 14 个被归类为“高危漏洞”。这一数量几乎相当于 Mozilla 在 2025 年修复的全部高危漏洞的五分之一。

这一结果清晰地表明，AI 正以前所未有的速度辅助人类识别严重的安全威胁。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

此消息引发了广泛讨论。有观点认为，Claude 在短时间内发现如此多漏洞的能力堪称“疯狂”，其效率“基本上相当于整个安全团队的季度工作量”。面对 AI 展现出的高效工作能力，人类安全工程师的竞争优势似乎正在受到挑战。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

有评论指出，Claude 的表现标志着我们正从“AI 辅助编程”阶段，迈向“AI 从根本上改变安全研究运作方式”的新纪元。这种规模的自动化漏洞发现能力，意味着每一个代码库在 AI 的深度扫描面前都可能变得“透明”。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

与此同时，担忧也随之而来。有网友提出，AI 能快速发现漏洞固然令人印象深刻，但更值得警惕的是“这对进攻端意味着什么？”如果一个模型能在短时间内定位 14 个高危漏洞，那么攻击面发现的博弈规则已被永久改变：防御方获得了一件利器，但攻击者同样可以拥有它。

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

公众对此事的强烈反应也说明，在大模型技术飞速发展的当下，软件安全问题变得空前重要，依然是技术发展的基石。

接下来，我们将详细解读 Anthropic 与 Mozilla 的此次合作，以及 Claude Opus 4.6 取得这一成绩的具体过程。

从模型评测到安全合作

2025 年底，Anthropic 注意到其 Opus 4.5 模型在 CyberGym（一个测试大语言模型复现已知安全漏洞能力的基准）上已能近乎完美地完成任务。因此，团队希望构建一个“更困难、更贴近真实世界”的评估环境，其中包含更高比例的技术复杂漏洞，例如现代浏览器中存在的漏洞。

为此，Anthropic 建立了一个基于 Firefox 历史 CVE（通用漏洞披露）的数据集，用以测试 Claude 复现这些漏洞的能力。选择 Firefox 是因为它既是一个复杂的代码库，也是世界上测试最充分、最安全的开源项目之一，这对 AI 发现新型漏洞的能力是更严峻的考验。相较于之前测试的开源软件，浏览器漏洞的发现更具挑战性，也更为危险，因为数亿用户依赖其处理不受信任的内容。

团队首先让 Claude 在旧版 Firefox 代码中寻找已知 CVE。结果显示，Opus 4.6 能够复现相当高比例的历史漏洞，而这些漏洞当初往往需要研究人员投入大量人力才能发现。

不过，这一结果存在疑问：这些历史漏洞可能已包含在 Claude 的训练数据中。因此，仅凭复现能力不足以证明模型真正具备漏洞发现能力。

于是，团队转向更具决定性的测试：让 Claude 寻找当前 Firefox 版本中的全新、未被报告过的漏洞。研究最初专注于 Firefox 的 JavaScript 引擎，随后逐步扩展至浏览器其他部分。选择 JavaScript 引擎的原因包括：
* 它是 Firefox 代码库中相对独立、可单独分析的部分；
* 同时具有巨大的攻击面，因为它直接执行来自互联网的不受信任代码。

令人惊讶的是，在仅仅 20 分钟的探索后，Claude Opus 4.6 就报告发现了一个 Use-After-Free（释放后重用）漏洞。 这是一种内存安全漏洞，可能允许攻击者用恶意内容覆盖数据。

研究人员在独立虚拟机中验证了该漏洞，并使用最新版 Firefox 确认问题存在。随后，Anthropic 在 Mozilla 的 Bugzilla 系统中提交了漏洞报告，并附上了由 Claude 编写、经团队验证的建议补丁。

而在 Anthropic 验证并提交第一个漏洞的这段时间里，Claude 已经发现了另外 50 个崩溃输入样本。在对这些崩溃进行分类时，一位 Mozilla 研究人员建议批量提交所有发现，无需逐一验证每个案例是否都具有安全影响。

最终，Anthropic 扫描了近 6000 个 C++ 文件，提交了总计 112 份独立漏洞报告，其中包含了前述的高危和中危漏洞。目前，大多数问题已在 Firefox 148 中修复，其余问题将在后续版本中解决。

从发现漏洞到开发利用代码

为了测试 Claude 在网络安全方面的能力上限，Anthropic 还设计了一项新评估：测试 Claude 能否利用其发现的漏洞开发出攻击程序（exploit）。即，Claude 是否能像黑客一样，编写出利用漏洞执行恶意代码的工具？

团队向 Claude 提供了已提交给 Mozilla 的漏洞，要求它为每一个漏洞开发一个利用程序。为证明利用成功，要求 Claude 演示一次真实的攻击行为，例如在目标系统中读取或写入一个本地文件。

团队为此运行了数百次实验，消耗了约 4000 美元的 API 费用。结果显示：Claude 仅成功利用了其中两个漏洞。

这说明了两点：
1. Claude 发现漏洞的能力远强于利用漏洞的能力；
2. 发现漏洞的成本比开发 exploit 低一个数量级。

但需要警惕的是：Claude 确实成功自动生成了浏览器 exploit（尽管案例很少），这本身就是一个令人担忧的信号。

此外需要强调，Claude 写出的 exploit 非常原始，仅在移除了部分浏览器安全机制（尤其是沙箱）的测试环境中有效。在真实的 Firefox 环境中，其纵深防御体系能够有效阻止这些特定的攻击。

然而，能够突破沙箱的漏洞并非不存在，而 Claude 的攻击演示已经完成了完整攻击链中的一个关键环节。

AI 驱动的网络安全未来

这些 AI 辅助漏洞利用开发的早期迹象，凸显了防御方加速“发现与修复”流程的极端重要性。为此，Anthropic 分享了一些在执行此项分析时总结的技术和流程最佳实践。

首先，在研究能够开发和验证补丁的“补丁智能体”时，团队开发了几种方法，旨在帮助维护者使用 Claude 等大模型更快地分类和处理安全报告。

根据经验，当 Claude 能够使用另一个工具来检查自身工作时，其表现最佳。团队将这类工具称为“任务验证器”：一种能够可靠判断 AI 智能体的输出是否真正达成目标的方法。验证器在智能体探索代码库时提供实时反馈，允许其进行深度迭代直至成功。

“任务验证器”帮助团队发现了上述 Firefox 漏洞，在其他研究中也被证明有助于修复 Bug。一个优秀的补丁智能体至少需要验证两件事：漏洞是否已被真正消除，以及程序的原有功能是否得以保留。

在Anthropic的工作中，团队构建了自动化验证工具，用于测试修复后的原始漏洞是否仍能被触发，并独立运行测试套件以捕捉可能破坏其他功能的回归问题。

团队认为，项目维护者最了解如何为自己的代码库构建此类验证器。关键在于，为AI智能体提供一种可靠的方法来验证这两项属性，可以显著提升其输出质量与修复方案的可靠性。

参考资料
1. Anthropic官方公告：Claude在Firefox中发现22个漏洞
2. 相关技术媒体报道

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/24644

Claude Opus 4.6两周挖出Firefox 14个高危漏洞，AI安全攻防进入新纪元

从模型评测到安全合作

从发现漏洞到开发利用代码

AI 驱动的网络安全未来

相关推荐

大模型安全危机全景：从攻击引擎到系统性漏洞的深度剖析

医疗AI的临床革命：从技术炫技到基层赋能，中国专业模型如何实现安全与有效的双重突破

MCP安全危机：模型上下文协议的三大设计缺陷与系统性风险分析

大模型安全前沿：漏洞检测与文本识别的新突破与挑战

突破语音鉴伪泛化瓶颈：上海交大联合宇生月伴提出数据为中心的高性能大模型