在人工智能安全领域,对抗攻击一直是研究的热点与难点。近日,清华大学与蚂蚁数科联合在NeurIPS 2024会议上提出的Dual-Flow框架,为这一领域带来了革命性的突破。该框架通过创新的双流结构和训练机制,实现了对多种模型、多种类别的黑盒攻击,且无需依赖目标模型结构或梯度信息,为AI模型的安全性评估与防御体系构建提供了全新的视角与工具。

Dual-Flow的核心创新在于其“前向扰动建模—条件反向优化”的双流结构。传统对抗攻击方法通常直接在像素空间添加噪声,虽然简单直接,但生成的扰动往往缺乏结构性,容易被人类视觉察觉,且在跨模型迁移时效果显著下降。Dual-Flow则另辟蹊径,将图像映射到流(flow)或潜在(latent)空间,在该空间进行结构化扰动设计,再通过速度函数(velocity function)反向映射回图像空间,生成最终的对抗样本。这种方法的优势在于,它能够在保持高迁移性的同时,生成更自然、更隐蔽的扰动,从而在视觉上更难被识别。
从技术细节来看,Dual-Flow的前向流负责将输入图像编码到潜在空间,并在此空间学习通用的扰动模式;反向流则根据指定的攻击目标(如图像类别)和条件信息,将扰动从潜在空间解码回图像空间,生成针对性的对抗样本。这种分离的设计使得框架能够灵活适应不同的攻击场景,无论是单目标还是多目标攻击,都能通过统一的生成器实现。

Dual-Flow的另一个关键创新是级联分布偏移训练(Cascading Distribution Shift Training)。在训练过程中,扰动分布会逐步推进,使得生成的对抗样本在不同时间步或中间表示上都能保持有效性。这种训练机制不仅大幅提升了对多模型、多目标的迁移成功率,还确保了生成的扰动在视觉隐蔽性约束下仍能保持攻击效力。具体而言,训练过程中会引入多个分布偏移阶段,每个阶段都会调整扰动的强度和结构,以适应不同的模型和类别,从而增强整体的泛化能力。

在实验结果方面,Dual-Flow在ImageNet NeurIPS验证集上进行了全面评估。实验设置包括对正常训练模型的多目标攻击,扰动规模限制为

。结果显示,Dual-Flow在单目标和多目标攻击中都展现了强大的迁移能力。例如,在单目标攻击下,Dual-Flow在黑盒环境中的平均成功率显著高于传统方法,即使在扰动幅度

的限制下,仍能有效误导模型;而在白盒攻击下,其效果更为突出。

进一步的多目标、多模型攻击实验表明,Dual-Flow在面对经过对抗训练的模型时,依然保持较高的成功率。这体现了其在黑盒环境下的通用性和强大攻击力。具体数据可从Table 3中查看,该表详细展示了Dual-Flow在不同模型架构和对抗训练设置下的性能表现。整体而言,这些实验充分证明了Dual-Flow在实现多目标、多模型、实例无关攻击上的优势,同时在保证视觉隐蔽性的前提下,提供了现实环境下的高迁移攻击能力。

除了静态图像攻击,Dual-Flow还扩展到了视频领域。通过加入

约束限制像素级扰动,并利用速度正则化使扰动在时间维度上更加平滑,Dual-Flow能够生成几乎与原始视频无差别的对抗视频,但依然能稳定误导模型。这一能力对于自动驾驶、监控系统等依赖视频分析的AI应用具有重要意义,因为这些场景中的对抗攻击可能带来更严重的后果。

Dual-Flow的提出,不仅为对抗攻击研究提供了新的范式,也为AI安全防御带来了新的挑战与机遇。传统防御方法往往依赖于对特定攻击模式的假设,而Dual-Flow的通用性和高迁移性意味着防御体系需要更加鲁棒和自适应。蚂蚁数科已经将Dual-Flow应用于身份安全相关产品的优化中,通过集成该对抗生成框架进行对抗样本的生成和检测,提升了防御体系对对抗样本的鲁棒性。

从更广泛的视角看,Dual-Flow的成功也反映了AI安全领域的一个趋势:攻击与防御的博弈正在从简单的像素级噪声对抗,转向更复杂、更结构化的潜在空间扰动。这种转变要求研究人员不仅关注模型的准确性和效率,还要深入理解其内部表示和脆弱性。未来,随着AI模型在更多关键领域的部署,类似Dual-Flow的通用攻击框架可能会成为评估模型安全性的标准工具,同时也将推动防御技术的不断创新。

总之,Dual-Flow通过创新的双流结构和训练机制,实现了对多目标、多模型的黑盒攻击,且无需依赖实例特定信息。其在ImageNet等数据集上的实验结果表明,该框架在攻击成功率和迁移性方面均优于传统方法,同时保持了良好的视觉隐蔽性。这一成果不仅为对抗攻击研究提供了新的思路,也为AI模型的安全评估和防御体系构建提供了重要参考。随着AI技术的不断发展,类似Dual-Flow的通用攻击框架可能会在安全测试、模型鲁棒性评估等领域发挥越来越重要的作用。

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4734
