来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。
RunawayEvil 创新性地采用「策略 – 战术 – 行动」核心范式,旨在解决传统单一模态、静态攻击在 I2V 场景下效果受限的行业痛点,为 I2V 模型的安全漏洞分析提供了高效可靠的工具。

- 论文标题:RunawayEvil: Jailbreaking the Image-to-Video Generative Models
- 项目地址:https://xzxg001.github.io/RunawayEvil/
- 论文地址:https://arxiv.org/pdf/2512.06674
- 代码地址:https://github.com/DeepSota/RunawayEvil
行业痛点:图生视频模型安全研究的三大核心缺口
图生视频(I2V)是融合图像视觉约束与文本语义引导,生成时空连贯、高保真动态内容的核心多模态技术,为内容创作、商业广告等领域提供高效创意支撑。然而,其安全防护体系尚显脆弱,未能跟上技术落地的步伐,成为制约行业稳健发展的关键瓶颈。
现有研究虽通过各类越狱方法揭示了视觉生成模型的内在漏洞,但针对 I2V 模型的安全研究仍存在显著空白。研究团队发现,当前存在三大核心缺口,严重阻碍了对其潜在风险的系统性探究与有效防御:
- 单模态攻击的天然局限性:现有越狱研究多聚焦于文本到图像(T2I)、文本到视频(T2V)等单模态系统,仅通过扰动单一输入模态实施攻击。而 I2V 模型依赖文本-图像跨模态协同工作机制,单一模态攻击无法利用其内在的模态交互特性,难以突破集成化的多模态安全防护,导致攻击成功率普遍较低。
- 静态攻击模式的适应性缺失:传统方法多采用人工构造恶意提示或固定攻击模板,缺乏动态调整能力。I2V 模型的输入具有极强的多样性(自然图像/合成图像、不同语义文本等),静态攻击模式无法根据输入特性定制策略,既限制了攻击策略的覆盖范围,也难以应对模型动态的安全防御机制,导致实际应用场景中的攻击效果大幅衰减。
- 多模态与维度升级的双重挑战:视觉生成模型的安全研究长期聚焦于文本到图像(T2I)单模态场景,而图生视频(I2V)技术的兴起,带来了多模态协同与维度升级的双重核心挑战。文本-图像输入的跨模态协同特性、图像到视频的时空复杂度跨越,共同构成了制约其安全可控落地的关键瓶颈。
这些痛点导致 I2V 模型在商业化落地过程中面临潜在安全隐患,亟需专门针对其多模态特性的安全评估工具,为技术迭代与风险防控提供支撑。
核心成果:首个 I2V「自进化」越狱框架是如何炼成的?

如果将一次 I2V 越狱视为一场“对抗安全系统的作战”,RunawayEvil 的关键在于构建了一条完整的作战指挥链:先选战略、再拆战术、最后执行并复盘,形成闭环迭代。整个框架建立在「Strategy–Tactic–Action(战略 – 战术 – 行动)」范式上,由三大模块协同组成:SACU(指挥大脑)、MTPU(战术参谋)和 TAU(执行者)。
两阶段流水线:先「进化大脑」,再「执行打击」
RunawayEvil 将流程拆分为两个阶段:
- 进化阶段:专门训练/进化 SACU,使其能够扩展策略库,并学会“针对不同输入选择最合适的策略”,不再依赖人工手写提示词。
- 执行阶段:进化完成后,SACU 首先给出策略;MTPU 将策略翻译成“跨模态协同”的战术指令;TAU 负责真正执行并把结果反馈回去。
指挥大脑:战略感知指挥单元 (SACU)

SACU 是 RunawayEvil 的核心「大脑」,目标是让攻击策略自动增长、并能对不同输入智能定制。它包含三个关键组件:
- 策略定制智能体 SCA:利用强化学习将“选择哪个策略”转化为决策问题。给定当前输入(状态),从策略库中挑选一个策略(动作),以追求更高的成功率,同时尽量保持隐蔽性。奖励函数被设计为多目标:既要追求越狱成功,也要控制“文本侧的可疑度”和“图像侧的可见改动”。
- 策略探索智能体 SEA:这是一个基于大语言模型的探索智能体,它会利用策略记忆库中“成功的案例”,生成新的策略,避免策略库陷入单一套路。
- 策略记忆库 SMB:这是一个结构化的成功经验集合,记录“使用了什么图、什么编辑指令、什么视频提示、采用什么策略”等信息,为后续策略探索与战术生成提供参考。
战术参谋:多模态战术规划单元 (MTPU)
如果说 SACU 决定“打什么仗”,那么 MTPU 就负责“怎么打”。它在 SCA 给定策略后,分析输入的图文对,生成协同的战术指令对(文本侧 + 图像侧),确保两种模态互相配合而非各自为战。
MTPU 并非每次都从零开始,它带有一个记忆增强检索机制:首先从 SMB 中查找与当前输入最相似的 top-K 成功经验;如果历史上存在“同策略”的成功样例,就借鉴那组成功提示来生成更贴合当前样本的指令,否则才完全从头生成。
执行者:战术行动单元 (TAU)
TAU 是“动手执行”的模块,由两部分组成:
- 执行器:根据 MTPU 输出的图像侧战术指令,对参考图进行迭代式编辑,得到更新后的图像。
- 安全评估器:对生成的视频进行安全判定。如果攻击成功,则将此次成功的记录写回 SMB,作为下一轮策略进化/战术生成的“可复用经验”。
闭环进化:从失败中学习
最核心的机制在于这三个单元构成了动态闭环:TAU 的执行结果(无论成功还是失败)都会反馈给 SACU。如果攻击成功,这条经验会被写入记忆库,成为未来攻击的养料;如果失败,强化学习算法会调整策略权重。
这种“生成 – 执行 – 反馈 – 进化”的机制,使 RunawayEvil 成为一个持续学习、不断强化的攻击框架,突破了现有静态攻击方法的局限性。
实验结果
RunawayEvil 的越狱实验选取了 COCO2017(5000 组训练样本、200 组测试样本)与 MM-SafetyBench(5040 组跨场景图文对)两大数据集,以 4 个主流开源 I2V 模型(Open-Sora 2.0、CogVideoX-5bI2V、Wan2.2-TI2V-5B、Dynamicrafter)为攻击目标,并采用 Qwen-VL、LLaVA-Next、Gemma-3-VL 三种安全评估器以确保评估的全面性与可靠性。实验结果表明,RunawayEvil 在攻击成功率等关键指标上,有效超越了传统的单模态越狱方法。
整体攻击效能领先:在 COCO2017 数据集上的评估显示,传统越狱方法的攻击成功率(ASR)峰值不足 50%(例如 PGJ 方法在 CogVideo-LLaVA 模型上为 47.0%),最低仅为 6.5%(如 Sneaky 方法在 DynamiCrafter-Gemma 模型上)。相比之下,RunawayEvil 在全部 24 组测试设置中均排名第一,其攻击成功率持续领先于所有对比方法,验证了该框架在不同风险场景下具备强大的泛化能力。

可视化效果领先:可视化实验结果表明,相较于传统的单模态越狱方法,RunawayEvil 能够有效突破图生视频模型的跨模态防御机制,成功实施越狱攻击,并生成更具危害性的 NSFW(不适宜工作场所)视频内容。

在更多主流 I2V 模型上的效果展示

CogVideoX-5b-I2V 模型上的越狱效果

Dynamicrafter 模型上的越狱效果
总结与展望
本文提出的 RunawayEvil 是首个针对图像到视频(I2V)生成模型的多模态自进化越狱框架。它基于“策略 – 战术 – 行动”范式,通过 SACU 模块实现自进化策略、MTPU 模块进行跨模态协同指令生成,以及 TAU 模块完成闭环执行,从而突破了传统单模态静态攻击的局限性。该框架在主流 I2V 模型与安全评估器上实现了 87.6% 的平均攻击成功率,显著超越了现有方法。RunawayEvil 不仅为 I2V 模型的安全漏洞分析提供了高效工具,也为构建稳健的多模态生成安全体系奠定了基础。
未来工作将致力于将该框架适配到更多 I2V 模型及更复杂的任务场景中。基于框架所揭示的漏洞特征,研究团队将探索针对性的防御机制,并深化模态协同策略的精细化优化,在保持高攻击效能的同时提升其隐蔽性。最终目标是设计出高效的多模态协同防御方案,为多模态安全研究提供更全面的技术支撑。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15243
