提示注入防御

  • AI安全周报:防御技术实现零突破,新型攻击暴露工具链短板

    本周,AI安全领域的攻防对抗持续深化,研究焦点集中于实用化防御技术的落地与新型风险场景的破解,呈现出“针对性突破”的鲜明特征。一方面,SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时,将提示注入与越狱攻击的成功率压制到接近零的水平;另一方面,针对代码编辑器、多模态模型场景分割等新型攻击手段,则暴露了当前AI工具链中存在的安全短…

    大模型安全 2025年10月6日
    7400
  • AI安全前沿突破:从零样本检测到供应链风险量化,四大技术路径重塑防御范式

    本周AI安全领域迎来关键进展,研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中,提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果,标志着AI安全正从被动响应转向主动防御的新阶段。 在提示注入攻击防护领域,LLMZ+提出的上下文白名单机制实现了范式级突…

    2025年9月26日
    7400
  • AI安全攻防新纪元:从多代理信任危机到动态防御令牌的全面解析

    本周AI安全领域呈现出前所未有的复杂图景,风险与防御技术同步演进,标志着该领域正进入一个攻防深度交织的新阶段。多代理架构中大型语言模型(LLM)对同伴指令的过度信任已成为系统性隐患,学术诚信体系因隐藏提示词攻击而面临严峻挑战。与此同时,以双向对抗网络(CAVGAN)、动态防御令牌(DefensiveToken)为代表的新型技术,以及小模型在漏洞检测中的高效表…

    2025年7月18日
    9900