LLM评估

  • AI安全周报:防御技术实现零突破,新型攻击暴露工具链短板

    本周,AI安全领域的攻防对抗持续深化,研究焦点集中于实用化防御技术的落地与新型风险场景的破解,呈现出“针对性突破”的鲜明特征。一方面,SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时,将提示注入与越狱攻击的成功率压制到接近零的水平;另一方面,针对代码编辑器、多模态模型场景分割等新型攻击手段,则暴露了当前AI工具链中存在的安全短…

    大模型安全 2025年10月6日
    7100