12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

近日,部分L3级自动驾驶车型已获准上路,标志着我国自动驾驶产业进入新阶段。

然而,当自动驾驶汽车在高速行驶时,若前方出现一个外观看似正常、实则为恶意生成的纹理障碍物,车辆的感知系统可能无法准确识别,导致错判或漏判,从而引发严重事故。

这类能够诱导智能系统、并可在现实世界中复现的纹理,被称为物理对抗样本(PAE, Physical Adversarial Examples)。

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

无论是发动还是防范PAE攻击,生成足够数量的PAE样本都至关重要。

目前已有多种PAE生成方法,但它们大多基于静态场景假设,难以有效应对光照变化、物体运动等动态变化的现实环境。因此,如何实时生成适应不同场景的物理对抗样本,成为智能安全领域亟待解决的问题。

北京航空航天大学等机构的研究团队提出了DynamicPAE框架,开创性地实现了实时场景感知的动态PAE生成方法。该方法通过解决对抗训练中的反馈问题,结合残差引导的对抗模式探索和场景对齐技术,实现了动态场景中PAE的毫秒级生成。该工作已被IEEE Transactions on Pattern Analysis and Machine Intelligence 2025录用

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

DynamicPAE框架旨在解决实时生成物理对抗样本面临的多维度挑战。研究面临两大核心难题:

  1. 对抗样本训练中的噪声阻碍了对场景相关PAE的有效探索,导致训练退化,现有生成器难以稳定生成高质量对抗样本;
  2. 数字域生成的对抗样本难以与现实场景对接,训练环境与攻击者实际观察信息的差异,导致生成的PAE在实际应用中的适用性与隐蔽性不一致,影响其在复杂环境中的有效性和稳定性。

该框架通过残差引导对抗模式探索、分布匹配攻击场景对齐以及目标加权模块的设计,有效应对上述挑战,使PAE生成过程更稳定,并能实时适应不同场景。

在多个物理攻击场景的测试中,该框架均表现出显著的性能提升,在自动驾驶安全测试、物理对抗攻击等领域展现出广泛的应用潜力。

DynamicPAE框架

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图1 环境感知的物理世界对抗样本实时生成框架

DynamicPAE框架如图1所示,主要包括残差驱动的对抗模式探索方法与分布匹配的对抗场景对齐方法,解决了端到端训练动态对抗样本生成器时的模式易坍缩、环境难适配问题。论文首先将动态物理对抗样本生成问题定义为:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

即寻找能够有效建模观察到的物理上下文PX∈p,与物理对抗样本δ间映射的生成器G。

其中Yadv是通过目标模型F定义的成功攻击的范围,⊕为攻击注入操作,它利用物理对抗样本δ=G(PX)作为输入,更新世界状态X∈x。

1. 对抗模式的探索引导

研究发现,物理对抗样本动态生成器的优化过程存在训练退化问题。为刻画该问题,研究根据生成模型的信息处理过程,提出有限信息反馈模型,以建模物理对抗样本δ与场景X关联的混沌性质,并定义反馈信息比为:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

其中,δ表示对抗样本,∇δL表示对抗样本空间上对抗损失的梯度,用以刻画单次优化所能获得的目标模型反馈,Z表示在信息瓶颈理论下生成模型对场景的关键编码。

生成模型的信息处理过程为X→Z→δ,I与H分别表示互信息与香农熵。

在物理环境不确定性的影响下,对抗损失梯度反馈的信噪比较低,即信息比(Information Ratio)较低。这阻碍了优化算法对动态对抗样本空间的探索,导致优化后的生成器将不同的X映射到高度相似的δ,从而使动态性失效。

为解决此问题,研究通过重新定义训练任务来绕过反馈信息匮乏的困难。

具体而言,建立辅助任务协同优化的范式。以λ∈[0,1]为集成比例,引入一个新的高信噪比“残差”任务,定义集成损失lλ、残差任务损失LR、条件生成目标δλ和残差比例任务编码Zλ,并通过以λ为条件生成的方式修改损失函数,以提高任务的解耦性和生成效果。

具体地,定义损失函数为:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

使得该任务的反馈信息比显著高于原有的动态对抗样本训练任务,即:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

从对抗样本生成空间的角度看,残差任务旨在鼓励探索全局空间。

受扩散模型中为学习整个梯度场而构建去噪任务的启发,论文将辅助残差任务R(LR:=LInv)定义为局部重建任务。该任务与模型输入PX直接相关,同时能让模型学习如何生成不同强度的攻击,使样本具有更灵活的隐蔽性。

具体来说,采用均方误差(MSE)作为客观质量指标,LPIPS作为主观质量指标,并将它们整合为:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

2. 分布匹配的攻击场景对齐

如何确保生成的PAE在现实场景中有效?

为了让生成的PAE能在复杂多变的现实场景中发挥作用,DynamicPAE提出了分布匹配的攻击场景对齐方法。该方法包含两个关键模块:

1. 条件不确定性对齐数据模块:通过创建条件概率模型,生成攻击注入过程的参数和攻击者的观察,使训练环境与攻击者在现实世界中的不完整观察对齐,从而平衡攻击的普遍性和性能。

2. 偏度对齐目标重加权模块:利用偏度统计量自动重新加权损失,实现对不同攻击目标的一致隐身控制,并进一步平衡残差任务训练过程中的“探索”与“利用”。

以对抗补丁生成为例。根据条件不确定性对齐原则,基于采集到的数据X建立训练数据概率图模型:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

训练数据概率图模型

其中,S和s’表示生成过程中注入的随机因素,θ表示对抗补丁的模拟放置参数,PX表示动态生成模型对于场景的观测,从而保障训练环境与真实环境一致。

在残差任务引导的训练过程中,重建损失“LInv”的采样强度配比代表了对生成器多样化纹理生成“探索”能力的增强,而攻击损失“LAtk”的采样强度则代表了对对抗补丁针对性生成的局部模式“利用”能力。

尽管模型以λ为输入,但在测试时,相同λ下模型攻击性与隐蔽性的权衡行为也受损失项整体强度影响。

为建立攻击目标权重配比的自适应调控机制,并针对原残差任务中的LInv进行调节,设定重构任务的损失强度α和新损失L’Inv。根据损失的偏度统计量作为指示器,定义新损失项L’Inv及其调节方程为:

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

可证明该调控过程在合理条件下收敛,从而保障在对抗度量测试场景下,动态对抗生成模型在不同目标模型、不同任务场景下具有一致的攻击行为,确保度量的一致性。α控制器的示意图如下所示。

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图2 损失分布的闭环控制示意图

实验结果

在多种数字和物理环境测试中,DynamicPAE相较于传统PAE生成方法展现了优异的攻击性能。

在使用COCO和Inria数据集进行目标检测实验时,DynamicPAE实现了显著的性能提升。尤其在面对DETR等强大模型时,其攻击导致平均精度(AP)下降幅度达58.8%,攻击成功率提升了2.07倍。

DynamicPAE在推断速度上表现优异。

实验数据显示,在NVIDIA A40 GPU上,DynamicPAE生成单张对抗样本的平均耗时仅为12毫秒。相比于传统的PGD迭代攻击方法,速度提升了2000倍以上,且攻击性更优。

这一特性使得DynamicPAE能够轻松满足自动驾驶等场景对物理世界攻击实时性的严苛要求,真正实现了动态、自适应的物理对抗。

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图3 DynamicPAE与其他方法对比

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图 4 DynamicPAE与基线方法对比

上图可视化了一些目标模型的补丁生成结果。左侧是没有残差引导训练时生成的情况,可以观察到所有四个目标模型生成的补丁都是相同的。

残差引导训练在攻击每个模型时,成功找到了多样化的解决方案。虽然探索到的对抗样本模式在多样性上存在一定限制,但其能够避免陷入退化或单一解的趋势是一致的。

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图5 DynamicPAE的机制分析

为了证明DynamicPAE框架生成的样本差异源于对攻击者观察的建模,而非随机生成,研究进一步分析了训练后生成器的潜在表征Z。

首先,根据物理对抗样本的风格对潜在表征进行标注,随后使用LDA进行降维。如图5子图a所示,模型成功学习到了样本的线性降维表征。研究进一步在降维空间中进行K近邻搜索,并在子图b中可视化了对应的物理上下文。

结果显示,K近邻搜索结果在若干特征上(如人类行为、服装色彩、暴露的身体部位等)与查询样本表现出显著的相似性。这表明,通过端到端训练,DynamicPAE确实捕捉到了攻击目标(例如行人检测器)的脆弱性特征与物理场景上下文之间的深层关联,从而实现了场景感知的生成能力。

12毫秒破解自动驾驶安全:北航DynamicPAE框架实现动态物理对抗攻击实时生成

图6 动态物理环境下的适应能力

为验证模型在真实物理世界中的有效性,研究构建了包含光照变化、多视角及屏幕反射等干扰的物理测试环境。

实验结果表明,DynamicPAE生成的对抗样本并非静态不变,而是能够根据环境光照和场景内容的变化进行动态调整。

在视频分析实验中,面对持续变化的背景和移动的人物,DynamicPAE能够实时输出与当前帧最匹配的对抗纹理,从而保持攻击的持续有效性。相较于传统静态贴片在光照剧烈变化下攻击性能大幅下降的情况,DynamicPAE展现出了卓越的环境适应能力和鲁棒性。

论文还验证了DynamicPAE在黑盒迁移攻击、3D仿真环境泛化攻击以及人脸识别分类攻击中的有效性,证明了该技术框架对自动驾驶对抗扰动测试生成场景的适配能力。同时,消融实验进一步分析了各模块的影响,验证了所提方法的实际效果。

未来工作可结合3D仿真模型生成与强化学习等技术,进一步完善动态对抗样本的生成能力。

论文链接:https://ieeexplore.ieee.org/document/11219170


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16118

(0)
上一篇 2025年12月28日 上午10:33
下一篇 2025年12月28日 上午10:51

相关推荐

  • 突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型

    在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

    2025年12月31日
    8200
  • 大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析

    一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…

    6天前
    9100
  • AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描

    AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描 近日,一个名为 Strix 的开源项目在 GitHub 上迅速走红,凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎,而是通过模拟真实黑客的思考和行为方式,让 AI 在网站或应用中主动寻找漏洞。…

    2025年11月16日
    8800
  • 南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

    来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 &#8…

    2025年12月25日
    8100
  • AI安全警报:多模态越狱与黑盒攻击揭示系统级脆弱性

    近期,一系列前沿研究论文系统性揭示了大型语言模型(LLM)及多模态人工智能系统在代码评估、图像生成、医疗诊断、金融合规等关键应用领域存在的严重安全漏洞。这些研究首次通过量化实验数据,实证了对抗性攻击对现代AI基础设施的破坏性影响,标志着AI安全研究从理论探讨进入了实战验证的新阶段。 研究发现,越狱攻击、提示注入、多模态协同攻击等新型威胁已突破传统防御边界。例…

    2025年12月15日
    8900