南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。

RunawayEvil 创新性地采用「策略 – 战术 – 行动」核心范式,旨在解决传统单一模态、静态攻击在 I2V 场景下效果受限的行业痛点,为 I2V 模型的安全漏洞分析提供了高效可靠的工具。

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

  • 论文标题:RunawayEvil: Jailbreaking the Image-to-Video Generative Models
  • 项目地址:https://xzxg001.github.io/RunawayEvil/
  • 论文地址:https://arxiv.org/pdf/2512.06674
  • 代码地址:https://github.com/DeepSota/RunawayEvil

行业痛点:图生视频模型安全研究的三大核心缺口

图生视频(I2V)是融合图像视觉约束与文本语义引导,生成时空连贯、高保真动态内容的核心多模态技术,为内容创作、商业广告等领域提供高效创意支撑。然而,其安全防护体系尚显脆弱,未能跟上技术落地的步伐,成为制约行业稳健发展的关键瓶颈。

现有研究虽通过各类越狱方法揭示了视觉生成模型的内在漏洞,但针对 I2V 模型的安全研究仍存在显著空白。研究团队发现,当前存在三大核心缺口,严重阻碍了对其潜在风险的系统性探究与有效防御:

  1. 单模态攻击的天然局限性:现有越狱研究多聚焦于文本到图像(T2I)、文本到视频(T2V)等单模态系统,仅通过扰动单一输入模态实施攻击。而 I2V 模型依赖文本-图像跨模态协同工作机制,单一模态攻击无法利用其内在的模态交互特性,难以突破集成化的多模态安全防护,导致攻击成功率普遍较低。
  2. 静态攻击模式的适应性缺失:传统方法多采用人工构造恶意提示或固定攻击模板,缺乏动态调整能力。I2V 模型的输入具有极强的多样性(自然图像/合成图像、不同语义文本等),静态攻击模式无法根据输入特性定制策略,既限制了攻击策略的覆盖范围,也难以应对模型动态的安全防御机制,导致实际应用场景中的攻击效果大幅衰减。
  3. 多模态与维度升级的双重挑战:视觉生成模型的安全研究长期聚焦于文本到图像(T2I)单模态场景,而图生视频(I2V)技术的兴起,带来了多模态协同与维度升级的双重核心挑战。文本-图像输入的跨模态协同特性、图像到视频的时空复杂度跨越,共同构成了制约其安全可控落地的关键瓶颈。

这些痛点导致 I2V 模型在商业化落地过程中面临潜在安全隐患,亟需专门针对其多模态特性的安全评估工具,为技术迭代与风险防控提供支撑。

核心成果:首个 I2V「自进化」越狱框架是如何炼成的?

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

如果将一次 I2V 越狱视为一场“对抗安全系统的作战”,RunawayEvil 的关键在于构建了一条完整的作战指挥链:先选战略、再拆战术、最后执行并复盘,形成闭环迭代。整个框架建立在「Strategy–Tactic–Action(战略 – 战术 – 行动)」范式上,由三大模块协同组成:SACU(指挥大脑)、MTPU(战术参谋)和 TAU(执行者)。

两阶段流水线:先「进化大脑」,再「执行打击」

RunawayEvil 将流程拆分为两个阶段:

  • 进化阶段:专门训练/进化 SACU,使其能够扩展策略库,并学会“针对不同输入选择最合适的策略”,不再依赖人工手写提示词。
  • 执行阶段:进化完成后,SACU 首先给出策略;MTPU 将策略翻译成“跨模态协同”的战术指令;TAU 负责真正执行并把结果反馈回去。

指挥大脑:战略感知指挥单元 (SACU)

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

SACU 是 RunawayEvil 的核心「大脑」,目标是让攻击策略自动增长、并能对不同输入智能定制。它包含三个关键组件:

  • 策略定制智能体 SCA:利用强化学习将“选择哪个策略”转化为决策问题。给定当前输入(状态),从策略库中挑选一个策略(动作),以追求更高的成功率,同时尽量保持隐蔽性。奖励函数被设计为多目标:既要追求越狱成功,也要控制“文本侧的可疑度”和“图像侧的可见改动”。
  • 策略探索智能体 SEA:这是一个基于大语言模型的探索智能体,它会利用策略记忆库中“成功的案例”,生成新的策略,避免策略库陷入单一套路。
  • 策略记忆库 SMB:这是一个结构化的成功经验集合,记录“使用了什么图、什么编辑指令、什么视频提示、采用什么策略”等信息,为后续策略探索与战术生成提供参考。

战术参谋:多模态战术规划单元 (MTPU)

如果说 SACU 决定“打什么仗”,那么 MTPU 就负责“怎么打”。它在 SCA 给定策略后,分析输入的图文对,生成协同的战术指令对(文本侧 + 图像侧),确保两种模态互相配合而非各自为战。

MTPU 并非每次都从零开始,它带有一个记忆增强检索机制:首先从 SMB 中查找与当前输入最相似的 top-K 成功经验;如果历史上存在“同策略”的成功样例,就借鉴那组成功提示来生成更贴合当前样本的指令,否则才完全从头生成。

执行者:战术行动单元 (TAU)

TAU 是“动手执行”的模块,由两部分组成:

  • 执行器:根据 MTPU 输出的图像侧战术指令,对参考图进行迭代式编辑,得到更新后的图像。
  • 安全评估器:对生成的视频进行安全判定。如果攻击成功,则将此次成功的记录写回 SMB,作为下一轮策略进化/战术生成的“可复用经验”。

闭环进化:从失败中学习

最核心的机制在于这三个单元构成了动态闭环:TAU 的执行结果(无论成功还是失败)都会反馈给 SACU。如果攻击成功,这条经验会被写入记忆库,成为未来攻击的养料;如果失败,强化学习算法会调整策略权重。

这种“生成 – 执行 – 反馈 – 进化”的机制,使 RunawayEvil 成为一个持续学习、不断强化的攻击框架,突破了现有静态攻击方法的局限性。

实验结果

RunawayEvil 的越狱实验选取了 COCO2017(5000 组训练样本、200 组测试样本)与 MM-SafetyBench(5040 组跨场景图文对)两大数据集,以 4 个主流开源 I2V 模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)为攻击目标,并采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三种安全评估器以确保评估的全面性与可靠性。实验结果表明,RunawayEvil 在攻击成功率等关键指标上,有效超越了传统的单模态越狱方法。

整体攻击效能领先:在 COCO2017 数据集上的评估显示,传统越狱方法的攻击成功率(ASR)峰值不足 50%(例如 PGJ 方法在 CogVideo-LLaVA 模型上为 47.0%),最低仅为 6.5%(如 Sneaky 方法在 DynamiCrafter-Gemma 模型上)。相比之下,RunawayEvil 在全部 24 组测试设置中均排名第一,其攻击成功率持续领先于所有对比方法,验证了该框架在不同风险场景下具备强大的泛化能力。

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

可视化效果领先:可视化实验结果表明,相较于传统的单模态越狱方法,RunawayEvil 能够有效突破图生视频模型的跨模态防御机制,成功实施越狱攻击,并生成更具危害性的 NSFW(不适宜工作场所)视频内容。

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

在更多主流 I2V 模型上的效果展示

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

CogVideoX-5b-I2V 模型上的越狱效果

南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞

Dynamicrafter 模型上的越狱效果

总结与展望

本文提出的 RunawayEvil 是首个针对图像到视频(I2V)生成模型的多模态自进化越狱框架。它基于“策略 – 战术 – 行动”范式,通过 SACU 模块实现自进化策略、MTPU 模块进行跨模态协同指令生成,以及 TAU 模块完成闭环执行,从而突破了传统单模态静态攻击的局限性。该框架在主流 I2V 模型与安全评估器上实现了 87.6% 的平均攻击成功率,显著超越了现有方法。RunawayEvil 不仅为 I2V 模型的安全漏洞分析提供了高效工具,也为构建稳健的多模态生成安全体系奠定了基础。

未来工作将致力于将该框架适配到更多 I2V 模型及更复杂的任务场景中。基于框架所揭示的漏洞特征,研究团队将探索针对性的防御机制,并深化模态协同策略的精细化优化,在保持高攻击效能的同时提升其隐蔽性。最终目标是设计出高效的多模态协同防御方案,为多模态安全研究提供更全面的技术支撑。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/15243

(0)
上一篇 2025年12月25日 下午12:10
下一篇 2025年12月25日 下午1:17

相关推荐

  • IMMACULATE:揭秘黑盒LLM服务审计新框架,1%开销即可检测模型替换与Token虚报

    作者简介 本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学,长期关注大语言模型基础设施中的可信性与安全性问题,特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。 引言:黑盒LLM服务的信任危机 大语言模型(LLM)已成为各类AI应用的基础设施…

    2026年3月23日
    35000
  • GPU-Fuzz:深度学习框架GPU内存安全检测新突破,发现13个未知漏洞

    GPU-Fuzz:深度学习框架GPU内存安全检测新突破,发现13个未知漏洞(1/4) 关键词:GPU-Fuzz、深度学习框架、内存错误、模糊测试、约束求解 GPU内存错误是威胁深度学习框架可靠性与安全性的关键隐患。越界访问、静默数据损坏等问题会引发系统崩溃与安全风险。然而,现有深度学习模糊测试工具以网络结构生成为核心,聚焦编译器算术错误检测,未系统性探索算子…

    2026年4月9日
    24600
  • DeepSeek惊现数据泄露漏洞:输入特定提示词即可随机获取他人对话记录

    近期,有用户在 X 平台爆料称,当在 DeepSeek 的输入框中键入特定文本时,竟能意外获取到模型的训练数据。这段触发内容的原文如下: <|begin▁of▁sentence|> <|sft▁begin|> 经过仔细分析后发现,具体现象是:只要用户在输入框内输入这组提示词,DeepSeek 就会输出一段完整的对话记录。不过,这并非用…

    2026年5月11日
    81200
  • 隐形字符攻击:大模型安全防线的新漏洞与防御策略

    在人工智能技术飞速发展的今天,大语言模型已成为推动社会进步的重要工具。然而,随着模型能力的提升,其安全性问题也日益凸显。近期,一项由清华大学、新加坡Sea AI Lab、复旦大学等机构联合开展的研究揭示了一种新型攻击手段——利用Unicode变体选择器(Variation Selectors)实施“隐形越狱”攻击。这种攻击不仅突破了Vicuna、Llama、…

    2025年11月7日
    30600
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    43400