GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

OpenAI近日推出了名为Aardvark的自主安全研究智能体,该智能体由GPT-5驱动,旨在自动发现并修复软件代码中的安全漏洞。

GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

目前,Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式,能够随代码库的演化为开发团队提供持续的保护。

根据OpenAI披露的数据,在标准代码库的基准测试中,Aardvark对已知漏洞与人工植入漏洞的识别率达到了92%。它通过早期漏洞捕捉、利用验证及提供清晰的修复方案,旨在强化安全体系的同时,不拖慢开发创新的节奏。

Aardvark的名字来源于夜行性的非洲食蚁兽,其独居并以蚂蚁和白蚁为食的特性,被巧妙地类比为该智能体异步、独立地“吞噬”程序漏洞(Bug)的工作方式。

GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元
GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

Aardvark的工作原理

Aardvark通过持续监控源代码仓库的提交与变更来工作。其核心是利用大语言模型的推理能力和工具调用功能,深入理解代码行为并定位漏洞,而非依赖传统的模糊测试或软件成分分析技术。

其工作流程分为四个主要阶段:

  1. 分析阶段:对完整代码库进行全面分析,生成反映项目安全目标与架构设计的威胁模型。
  2. 提交扫描:实时比对代码变更与威胁模型,检测新增漏洞。首次接入仓库时,会扫描历史记录以识别现存问题,并提供带标注的代码解析。
  3. 验证阶段:在隔离的沙箱环境中尝试触发潜在漏洞,以确认其真实可利用性,从而确保分析结果的低误报率。
  4. 修复阶段:与OpenAI Codex协同,为已验证的漏洞生成修复补丁。这些补丁附在检测报告中,供开发人员审核后一键应用。
GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

AI作为生产力放大器

这一应用场景被业界认为极具潜力。寻找漏洞需要系统性的推理和上下文理解,这正是先进推理模型的强项。AI能够思考远超人类数量的边缘情况,从而发现容易被遗漏的漏洞。

GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

Aardvark被设计为与开发者协作的工具。它无缝集成到GitHub等现有工作流中,并在关键环节设置了人工审核步骤。安全工程师的角色并未被取代,而是转变为最终的质量把关者。这使其成为一种生产力放大器,而非替代品。

此前,已有研究探索AI自动化漏洞处理流程。例如,有安全研究人员搭建的系统能够自动分析CVE通告、生成测试应用与利用代码,并进行验证,实现了对每日上百条CVE信息的高效处理。

GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元
GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

安全智能体的崛起背景

软件漏洞已成为系统性风险。据统计,仅2024年公开的通用漏洞披露(CVE)数量就超过4万例,年增长率高达38%。同时,高危的“零日漏洞”在黑市上的价格持续飙升。

GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元
GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元

传统漏洞发现手段(如模糊测试)费时费力,而AI在代码理解与推理上的突破,正使其成为应对海量漏洞挑战的关键力量。Aardvark的重要性体现在:

  • 弥补人力缺口:普通企业难以雇佣足够的安全专家。
  • 应对漏洞洪流:每年有数万新漏洞被公开。
  • 提供持续防护:能够7×24小时不间断地“巡逻”代码库。
  • 拓展检测范围:不仅能发现安全漏洞,还能识别逻辑错误或隐私风险。

Aardvark已在OpenAI内部及外部alpha合作伙伴中运行数月,成功发现了多个有实际意义的安全漏洞,并因其能识别复杂条件下的隐蔽问题而受到好评。

与此同时,谷歌DeepMind也于本月初发布了基于Gemini模型的AI智能体CodeMender,它能够自主调试并修复复杂漏洞,在修改前后进行深入推理与验证。

AI驱动的安全智能体,正在彻底改变网络安全的竞争格局。

参考资料:
https://deepmind.google/discover/blog/introducing-codemender-an-ai-agent-for-code-security/
https://substack.com/home/post/p-170458299
https://x.com/imxiaohu/status/1984061183301972339


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/13755

(0)
上一篇 2025年10月31日 下午12:34
下一篇 2025年11月1日 上午7:19

相关推荐

  • Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

    Claude Mythos 预览版发布:AI 安全警钟敲响 就在刚刚,Anthropic 备受瞩目的最强模型——Claude Mythos,发布了其预览版本。 这款模型的表现印证了此前的传闻,其性能在多项基准测试中实现了对前代模型 Claude Opus 4.6 的全面超越。 SWE-bench Pro:代码错误修复能力提升 24%。 SWE-bench V…

    2026年4月8日
    26500
  • 压力测试揭示AI代理的脆弱性:当大模型面临高压环境时的安全风险分析

    近期一项针对AI代理模型的研究揭示了令人担忧的现象:在高压环境下,即使是经过对齐训练的大型语言模型,也会表现出显著的脆弱性,倾向于选择有害工具来完成任务。这一发现对AI安全领域提出了新的挑战,促使我们重新审视当前模型对齐策略的有效性。 研究团队对来自Google、Meta、OpenAI等机构的约12款Agent模型进行了系统性测试,共设置了5874个实验场景…

    2025年12月1日
    33800
  • AI安全新纪元:多模态协同防御与动态博弈破解LLM越狱威胁

    一、关键发现 多模态防御体系构建成为战略刚需 研究表明,大型语言模型(LLM)与视觉语言模型(VLM)的越狱攻击源于训练数据不完整、语言歧义等结构性缺陷,因此需要建立跨模态协同防御框架。企业应优先部署感知层的变异一致性检测、生成层的安全解码及参数层的对抗性预训练对齐等技术,覆盖文本、图像、语音等全模态场景,并通过自动化红队测试和标准化评估持续验证防御效能。 …

    2026年1月12日
    1.0K00
  • AI成Linux内核“赛博监工”:每天轰炸10份漏洞报告,开发者崩溃称“活根本干不完”

    Linux 内核维护者遭遇“AI 监工”:每日漏洞报告轰炸,开发者坦言“不堪重负” Linux 内核维护者们正面临一场突如其来的生产力挑战:AI 发现漏洞的速度,已经超过了他们修复漏洞的速度。 刚刚加班处理完一批问题,一觉醒来,邮箱又被新的 AI 漏洞报告塞满。据反映,从今年开始,维护者们每天都会雷打不动地收到 5 到 10 份此类报告,周二和周五尤其密集。…

    2026年4月5日
    31100
  • DAVSP:清华大学提出深度对齐视觉安全提示,重塑多模态大模型安全防线

    随着多模态人工智能技术的快速发展,大型视觉语言模型(LVLMs)已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而,这种强大的多模态理解能力背后,却潜藏着日益严峻的安全风险。最新研究表明,即便是当前最先进的LVLMs,在面对经过精心设计的恶意图像-文本组合输入时,仍可能产生违规甚至有害的响应。这一安全漏洞的暴露,不仅对模型的实际部署构成了…

    2025年11月24日
    35000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注