南京大学联合美团、上交推出RunawayEvil：首个I2V自进化越狱框架，破解视频生成模型安全漏洞

来自南京大学 PRLab 的王淞平、钱儒凡，在单彩峰教授与吕月明助理教授的联合指导下，提出了首个面向图生视频（I2V）模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构，共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。

RunawayEvil 创新性地采用「策略 – 战术 – 行动」核心范式，旨在解决传统单一模态、静态攻击在 I2V 场景下效果受限的行业痛点，为 I2V 模型的安全漏洞分析提供了高效可靠的工具。

论文标题：RunawayEvil: Jailbreaking the Image-to-Video Generative Models
项目地址：https://xzxg001.github.io/RunawayEvil/
论文地址：https://arxiv.org/pdf/2512.06674
代码地址：https://github.com/DeepSota/RunawayEvil

行业痛点：图生视频模型安全研究的三大核心缺口

图生视频（I2V）是融合图像视觉约束与文本语义引导，生成时空连贯、高保真动态内容的核心多模态技术，为内容创作、商业广告等领域提供高效创意支撑。然而，其安全防护体系尚显脆弱，未能跟上技术落地的步伐，成为制约行业稳健发展的关键瓶颈。

现有研究虽通过各类越狱方法揭示了视觉生成模型的内在漏洞，但针对 I2V 模型的安全研究仍存在显著空白。研究团队发现，当前存在三大核心缺口，严重阻碍了对其潜在风险的系统性探究与有效防御：

单模态攻击的天然局限性：现有越狱研究多聚焦于文本到图像（T2I）、文本到视频（T2V）等单模态系统，仅通过扰动单一输入模态实施攻击。而 I2V 模型依赖文本-图像跨模态协同工作机制，单一模态攻击无法利用其内在的模态交互特性，难以突破集成化的多模态安全防护，导致攻击成功率普遍较低。
静态攻击模式的适应性缺失：传统方法多采用人工构造恶意提示或固定攻击模板，缺乏动态调整能力。I2V 模型的输入具有极强的多样性（自然图像/合成图像、不同语义文本等），静态攻击模式无法根据输入特性定制策略，既限制了攻击策略的覆盖范围，也难以应对模型动态的安全防御机制，导致实际应用场景中的攻击效果大幅衰减。
多模态与维度升级的双重挑战：视觉生成模型的安全研究长期聚焦于文本到图像（T2I）单模态场景，而图生视频（I2V）技术的兴起，带来了多模态协同与维度升级的双重核心挑战。文本-图像输入的跨模态协同特性、图像到视频的时空复杂度跨越，共同构成了制约其安全可控落地的关键瓶颈。

这些痛点导致 I2V 模型在商业化落地过程中面临潜在安全隐患，亟需专门针对其多模态特性的安全评估工具，为技术迭代与风险防控提供支撑。

核心成果：首个 I2V「自进化」越狱框架是如何炼成的？

如果将一次 I2V 越狱视为一场“对抗安全系统的作战”，RunawayEvil 的关键在于构建了一条完整的作战指挥链：先选战略、再拆战术、最后执行并复盘，形成闭环迭代。整个框架建立在「Strategy–Tactic–Action（战略 – 战术 – 行动）」范式上，由三大模块协同组成：SACU（指挥大脑）、MTPU（战术参谋）和 TAU（执行者）。

两阶段流水线：先「进化大脑」，再「执行打击」

RunawayEvil 将流程拆分为两个阶段：

进化阶段：专门训练/进化 SACU，使其能够扩展策略库，并学会“针对不同输入选择最合适的策略”，不再依赖人工手写提示词。
执行阶段：进化完成后，SACU 首先给出策略；MTPU 将策略翻译成“跨模态协同”的战术指令；TAU 负责真正执行并把结果反馈回去。

指挥大脑：战略感知指挥单元 (SACU)

SACU 是 RunawayEvil 的核心「大脑」，目标是让攻击策略自动增长、并能对不同输入智能定制。它包含三个关键组件：

策略定制智能体 SCA：利用强化学习将“选择哪个策略”转化为决策问题。给定当前输入（状态），从策略库中挑选一个策略（动作），以追求更高的成功率，同时尽量保持隐蔽性。奖励函数被设计为多目标：既要追求越狱成功，也要控制“文本侧的可疑度”和“图像侧的可见改动”。
策略探索智能体 SEA：这是一个基于大语言模型的探索智能体，它会利用策略记忆库中“成功的案例”，生成新的策略，避免策略库陷入单一套路。
策略记忆库 SMB：这是一个结构化的成功经验集合，记录“使用了什么图、什么编辑指令、什么视频提示、采用什么策略”等信息，为后续策略探索与战术生成提供参考。

战术参谋：多模态战术规划单元 (MTPU)

如果说 SACU 决定“打什么仗”，那么 MTPU 就负责“怎么打”。它在 SCA 给定策略后，分析输入的图文对，生成协同的战术指令对（文本侧 + 图像侧），确保两种模态互相配合而非各自为战。

MTPU 并非每次都从零开始，它带有一个记忆增强检索机制：首先从 SMB 中查找与当前输入最相似的 top-K 成功经验；如果历史上存在“同策略”的成功样例，就借鉴那组成功提示来生成更贴合当前样本的指令，否则才完全从头生成。

执行者：战术行动单元 (TAU)

TAU 是“动手执行”的模块，由两部分组成：

执行器：根据 MTPU 输出的图像侧战术指令，对参考图进行迭代式编辑，得到更新后的图像。
安全评估器：对生成的视频进行安全判定。如果攻击成功，则将此次成功的记录写回 SMB，作为下一轮策略进化/战术生成的“可复用经验”。

闭环进化：从失败中学习

最核心的机制在于这三个单元构成了动态闭环：TAU 的执行结果（无论成功还是失败）都会反馈给 SACU。如果攻击成功，这条经验会被写入记忆库，成为未来攻击的养料；如果失败，强化学习算法会调整策略权重。

这种“生成 – 执行 – 反馈 – 进化”的机制，使 RunawayEvil 成为一个持续学习、不断强化的攻击框架，突破了现有静态攻击方法的局限性。

实验结果

RunawayEvil 的越狱实验选取了 COCO2017（5000 组训练样本、200 组测试样本）与 MM-SafetyBench（5040 组跨场景图文对）两大数据集，以 4 个主流开源 I2V 模型（Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter）为攻击目标，并采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三种安全评估器以确保评估的全面性与可靠性。实验结果表明，RunawayEvil 在攻击成功率等关键指标上，有效超越了传统的单模态越狱方法。

整体攻击效能领先：在 COCO2017 数据集上的评估显示，传统越狱方法的攻击成功率（ASR）峰值不足 50%（例如 PGJ 方法在 CogVideo-LLaVA 模型上为 47.0%），最低仅为 6.5%（如 Sneaky 方法在 DynamiCrafter-Gemma 模型上）。相比之下，RunawayEvil 在全部 24 组测试设置中均排名第一，其攻击成功率持续领先于所有对比方法，验证了该框架在不同风险场景下具备强大的泛化能力。

可视化效果领先：可视化实验结果表明，相较于传统的单模态越狱方法，RunawayEvil 能够有效突破图生视频模型的跨模态防御机制，成功实施越狱攻击，并生成更具危害性的 NSFW（不适宜工作场所）视频内容。

在更多主流 I2V 模型上的效果展示

CogVideoX-5b-I2V 模型上的越狱效果

Dynamicrafter 模型上的越狱效果

总结与展望

本文提出的 RunawayEvil 是首个针对图像到视频（I2V）生成模型的多模态自进化越狱框架。它基于“策略 – 战术 – 行动”范式，通过 SACU 模块实现自进化策略、MTPU 模块进行跨模态协同指令生成，以及 TAU 模块完成闭环执行，从而突破了传统单模态静态攻击的局限性。该框架在主流 I2V 模型与安全评估器上实现了 87.6% 的平均攻击成功率，显著超越了现有方法。RunawayEvil 不仅为 I2V 模型的安全漏洞分析提供了高效工具，也为构建稳健的多模态生成安全体系奠定了基础。

未来工作将致力于将该框架适配到更多 I2V 模型及更复杂的任务场景中。基于框架所揭示的漏洞特征，研究团队将探索针对性的防御机制，并深化模态协同策略的精细化优化，在保持高攻击效能的同时提升其隐蔽性。最终目标是设计出高效的多模态协同防御方案，为多模态安全研究提供更全面的技术支撑。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/15243

南京大学联合美团、上交推出RunawayEvil：首个I2V自进化越狱框架，破解视频生成模型安全漏洞

行业痛点：图生视频模型安全研究的三大核心缺口

核心成果：首个 I2V「自进化」越狱框架是如何炼成的？

两阶段流水线：先「进化大脑」，再「执行打击」

指挥大脑：战略感知指挥单元 (SACU)

战术参谋：多模态战术规划单元 (MTPU)

执行者：战术行动单元 (TAU)

闭环进化：从失败中学习

实验结果

相关推荐

OpenAI、Anthropic、DeepMind罕见联手，得出一个关于AI安全的惊人结论：现有LLM安全防御不堪一击

联邦学习安全防线告急？港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

AI底线之争：Anthropic起诉五角大楼，战争灵魂归属博弈升级

12毫秒破解自动驾驶安全：北航DynamicPAE框架实现动态物理对抗攻击实时生成

EnchTable：无需重训练的模型安全对齐框架，破解微调后安全能力退化难题