LLM评估

AI安全周报：防御技术实现零突破，新型攻击暴露工具链短板

本周，AI安全领域的攻防对抗持续深化，研究焦点集中于实用化防御技术的落地与新型风险场景的破解，呈现出“针对性突破”的鲜明特征。一方面，SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时，将提示注入与越狱攻击的成功率压制到接近零的水平；另一方面，针对代码编辑器、多模态模型场景分割等新型攻击手段，则暴露了当前AI工具链中存在的安全短…

大模型安全 2025年10月6日
159000