提示注入防御

AI安全周报：防御技术实现零突破，新型攻击暴露工具链短板

本周，AI安全领域的攻防对抗持续深化，研究焦点集中于实用化防御技术的落地与新型风险场景的破解，呈现出“针对性突破”的鲜明特征。一方面，SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时，将提示注入与越狱攻击的成功率压制到接近零的水平；另一方面，针对代码编辑器、多模态模型场景分割等新型攻击手段，则暴露了当前AI工具链中存在的安全短…

大模型安全 2025年10月6日

162000

大模型安全

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

本周AI安全领域迎来关键进展，研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中，提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果，标志着AI安全正从被动响应转向主动防御的新阶段。在提示注入攻击防护领域，LLMZ+提出的上下文白名单机制实现了范式级突…

2025年9月26日

169000

大模型安全

AI安全攻防新纪元：从多代理信任危机到动态防御令牌的全面解析

本周AI安全领域呈现出前所未有的复杂图景，风险与防御技术同步演进，标志着该领域正进入一个攻防深度交织的新阶段。多代理架构中大型语言模型（LLM）对同伴指令的过度信任已成为系统性隐患，学术诚信体系因隐藏提示词攻击而面临严峻挑战。与此同时，以双向对抗网络（CAVGAN）、动态防御令牌（DefensiveToken）为代表的新型技术，以及小模型在漏洞检测中的高效表…

2025年7月18日

185000