对抗性攻击

AI产业动态

大模型安全新挑战：多场景脆弱性暴露与高效防御框架解析

一、关键发现近期研究揭示，大型语言模型在多种应用场景中均表现出显著的安全脆弱性，而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击，到物理世界导航代理的高风险漏洞，模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制，为企业提供了构建场景化安全防线的可行…

2026年1月26日
881000
AI安全攻防战：对抗提示突破T2I防线，幻觉机制精准拆解，通用模型竟优于专业模型

当AI模型从实验室走向实际应用，安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过；大语言模型即便掌握了正确答案，也可能“自信满满”地输出错误信息；而在科学应用场景中，通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象，恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…

大模型安全 2025年11月3日
539000