近日,Anthropic 公布了一项与 Mozilla 的合作测试结果,其模型 Claude Opus 4.6 在两周内,于 Firefox 浏览器代码库中发现了 22 个不同的漏洞,其中 14 个被归类为“高危漏洞”。这一数量几乎相当于 Mozilla 在 2025 年修复的全部高危漏洞的五分之一。
这一结果清晰地表明,AI 正以前所未有的速度辅助人类识别严重的安全威胁。

此消息引发了广泛讨论。有观点认为,Claude 在短时间内发现如此多漏洞的能力堪称“疯狂”,其效率“基本上相当于整个安全团队的季度工作量”。面对 AI 展现出的高效工作能力,人类安全工程师的竞争优势似乎正在受到挑战。

有评论指出,Claude 的表现标志着我们正从“AI 辅助编程”阶段,迈向“AI 从根本上改变安全研究运作方式”的新纪元。这种规模的自动化漏洞发现能力,意味着每一个代码库在 AI 的深度扫描面前都可能变得“透明”。

与此同时,担忧也随之而来。有网友提出,AI 能快速发现漏洞固然令人印象深刻,但更值得警惕的是“这对进攻端意味着什么?”如果一个模型能在短时间内定位 14 个高危漏洞,那么攻击面发现的博弈规则已被永久改变:防御方获得了一件利器,但攻击者同样可以拥有它。

公众对此事的强烈反应也说明,在大模型技术飞速发展的当下,软件安全问题变得空前重要,依然是技术发展的基石。
接下来,我们将详细解读 Anthropic 与 Mozilla 的此次合作,以及 Claude Opus 4.6 取得这一成绩的具体过程。
从模型评测到安全合作
2025 年底,Anthropic 注意到其 Opus 4.5 模型在 CyberGym(一个测试大语言模型复现已知安全漏洞能力的基准)上已能近乎完美地完成任务。因此,团队希望构建一个“更困难、更贴近真实世界”的评估环境,其中包含更高比例的技术复杂漏洞,例如现代浏览器中存在的漏洞。
为此,Anthropic 建立了一个基于 Firefox 历史 CVE(通用漏洞披露)的数据集,用以测试 Claude 复现这些漏洞的能力。选择 Firefox 是因为它既是一个复杂的代码库,也是世界上测试最充分、最安全的开源项目之一,这对 AI 发现新型漏洞的能力是更严峻的考验。相较于之前测试的开源软件,浏览器漏洞的发现更具挑战性,也更为危险,因为数亿用户依赖其处理不受信任的内容。
团队首先让 Claude 在旧版 Firefox 代码中寻找已知 CVE。结果显示,Opus 4.6 能够复现相当高比例的历史漏洞,而这些漏洞当初往往需要研究人员投入大量人力才能发现。
不过,这一结果存在疑问:这些历史漏洞可能已包含在 Claude 的训练数据中。因此,仅凭复现能力不足以证明模型真正具备漏洞发现能力。
于是,团队转向更具决定性的测试:让 Claude 寻找当前 Firefox 版本中的全新、未被报告过的漏洞。研究最初专注于 Firefox 的 JavaScript 引擎,随后逐步扩展至浏览器其他部分。选择 JavaScript 引擎的原因包括:
* 它是 Firefox 代码库中相对独立、可单独分析的部分;
* 同时具有巨大的攻击面,因为它直接执行来自互联网的不受信任代码。
令人惊讶的是,在仅仅 20 分钟的探索后,Claude Opus 4.6 就报告发现了一个 Use-After-Free(释放后重用)漏洞。 这是一种内存安全漏洞,可能允许攻击者用恶意内容覆盖数据。
研究人员在独立虚拟机中验证了该漏洞,并使用最新版 Firefox 确认问题存在。随后,Anthropic 在 Mozilla 的 Bugzilla 系统中提交了漏洞报告,并附上了由 Claude 编写、经团队验证的建议补丁。
而在 Anthropic 验证并提交第一个漏洞的这段时间里,Claude 已经发现了另外 50 个崩溃输入样本。在对这些崩溃进行分类时,一位 Mozilla 研究人员建议批量提交所有发现,无需逐一验证每个案例是否都具有安全影响。
最终,Anthropic 扫描了近 6000 个 C++ 文件,提交了总计 112 份独立漏洞报告,其中包含了前述的高危和中危漏洞。目前,大多数问题已在 Firefox 148 中修复,其余问题将在后续版本中解决。
从发现漏洞到开发利用代码
为了测试 Claude 在网络安全方面的能力上限,Anthropic 还设计了一项新评估:测试 Claude 能否利用其发现的漏洞开发出攻击程序(exploit)。即,Claude 是否能像黑客一样,编写出利用漏洞执行恶意代码的工具?
团队向 Claude 提供了已提交给 Mozilla 的漏洞,要求它为每一个漏洞开发一个利用程序。为证明利用成功,要求 Claude 演示一次真实的攻击行为,例如在目标系统中读取或写入一个本地文件。
团队为此运行了数百次实验,消耗了约 4000 美元的 API 费用。结果显示:Claude 仅成功利用了其中两个漏洞。
这说明了两点:
1. Claude 发现漏洞的能力远强于利用漏洞的能力;
2. 发现漏洞的成本比开发 exploit 低一个数量级。
但需要警惕的是:Claude 确实成功自动生成了浏览器 exploit(尽管案例很少),这本身就是一个令人担忧的信号。
此外需要强调,Claude 写出的 exploit 非常原始,仅在移除了部分浏览器安全机制(尤其是沙箱)的测试环境中有效。在真实的 Firefox 环境中,其纵深防御体系能够有效阻止这些特定的攻击。
然而,能够突破沙箱的漏洞并非不存在,而 Claude 的攻击演示已经完成了完整攻击链中的一个关键环节。
AI 驱动的网络安全未来
这些 AI 辅助漏洞利用开发的早期迹象,凸显了防御方加速“发现与修复”流程的极端重要性。为此,Anthropic 分享了一些在执行此项分析时总结的技术和流程最佳实践。
首先,在研究能够开发和验证补丁的“补丁智能体”时,团队开发了几种方法,旨在帮助维护者使用 Claude 等大模型更快地分类和处理安全报告。
根据经验,当 Claude 能够使用另一个工具来检查自身工作时,其表现最佳。团队将这类工具称为“任务验证器”:一种能够可靠判断 AI 智能体的输出是否真正达成目标的方法。验证器在智能体探索代码库时提供实时反馈,允许其进行深度迭代直至成功。
“任务验证器”帮助团队发现了上述 Firefox 漏洞,在其他研究中也被证明有助于修复 Bug。一个优秀的补丁智能体至少需要验证两件事:漏洞是否已被真正消除,以及程序的原有功能是否得以保留。
在Anthropic的工作中,团队构建了自动化验证工具,用于测试修复后的原始漏洞是否仍能被触发,并独立运行测试套件以捕捉可能破坏其他功能的回归问题。
团队认为,项目维护者最了解如何为自己的代码库构建此类验证器。关键在于,为AI智能体提供一种可靠的方法来验证这两项属性,可以显著提升其输出质量与修复方案的可靠性。
参考资料
1. Anthropic官方公告:Claude在Firefox中发现22个漏洞
2. 相关技术媒体报道

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24644
