越狱攻击
-
南京大学联合美团、上交推出RunawayEvil:首个I2V自进化越狱框架,破解视频生成模型安全漏洞
来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出了首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。该研究联合了美团、上海交通大学等多家机构,共同完成了首个支持多模态协同与自主进化的 I2V 越狱攻击框架的研发。 RunawayEvil 创新性地采用「策略 – 战术 …
-
AI安全攻防新纪元:从诗歌越狱到进化算法,大模型安全机制面临系统性挑战
近期一系列研究论文揭示了人工智能安全领域正在经历一场深刻的范式转变。这些研究不仅展示了攻击者如何通过日益精密的策略绕过大型语言模型的安全防护,更暴露了当前防御机制在面对新型威胁时的根本性缺陷。本文将从攻击方法多元化、防御框架创新、评估工具演进三个维度,深入剖析这一领域的最新动态。 **攻击方法的进化:从单一试探到系统性突破** 传统越狱攻击往往依赖于手工编写…
-
AI安全攻防新纪元:多模态越狱、加密指纹与自动化漏洞检测的技术突破
近期,一系列前沿研究揭示了人工智能安全领域的重要进展,从攻击向量创新到防御技术突破,为构建更可靠的AI系统提供了关键见解。这些研究不仅展示了当前大型语言模型(LLM)面临的安全挑战,更提出了切实可行的解决方案,推动着AI安全从被动防御向主动防护的范式转变。 在攻击向量方面,研究发现了语言风格重写这一新型越狱手段。通过将恶意请求改写为恐惧、同情或好奇等特定风格…
-
AI安全周报:防御技术实现零突破,新型攻击暴露工具链短板
本周,AI安全领域的攻防对抗持续深化,研究焦点集中于实用化防御技术的落地与新型风险场景的破解,呈现出“针对性突破”的鲜明特征。一方面,SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时,将提示注入与越狱攻击的成功率压制到接近零的水平;另一方面,针对代码编辑器、多模态模型场景分割等新型攻击手段,则暴露了当前AI工具链中存在的安全短…
-
大模型安全全景图:198篇研究揭示API密钥窃取、越狱攻击与四大场景漏洞防御策略
“我们公司用大模型处理客户数据,结果 API 密钥被偷,损失百万”“ChatGPT 又被‘越狱’了,生成了制作危险物品的教程”…… 大型语言模型(LLM)已从实验室走向企业生产环境,成为降本增效的关键工具。然而,其广泛应用也引来了日益精密的攻击——从训练数据投毒以操控模型输出,到利用单行代码劫持模型行为,再到窃取企业私有数据,大模型安全已成为攻防博弈的主战场…
-
认知解构时代:大模型内生安全攻防从神经元到生态链的深度剖析
随着九月网络安全宣传周的临近,AI安全领域迎来了一轮密集的技术突破与风险揭示。本周集中发布的六篇学术论文,从不同维度直指大语言模型(LLM)的内生安全短板,标志着技术攻防正从传统的“规则对抗”向更深层次的“认知解构”范式演进。这不仅是对现有防御体系的压力测试,更是为构建下一代主动免疫式安全架构提供了关键的技术路线图。 **核心趋势:从可解释性突破到生态化风险…
-
大模型安全攻防新图景:从文字谜题越狱到音频后门,AI防御体系面临多维挑战
随着大语言模型(LLMs)和音频大语言模型(ALLMs)在代码生成、漏洞分析、智能合约审计乃至多模态交互等安全关键领域加速应用,其自身的安全防线与作为安全工具的双重角色正经历前所未有的压力测试。近期一系列前沿研究揭示,攻击手段正从传统的提示注入向更隐蔽、更富创造性的维度演进,而模型在防御与攻击任务中的表现则呈现出显著的“双刃剑”特性。这不仅刷新了业界对AI安…