大模型安全
-
AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描
AI黑客团队Strix:一周狂揽8K星,用多智能体协同渗透测试颠覆传统安全扫描 近日,一个名为 Strix 的开源项目在 GitHub 上迅速走红,凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎,而是通过模拟真实黑客的思考和行为方式,让 AI 在网站或应用中主动寻找漏洞。…
-
DistilledPRAG:不暴露明文文档的隐私保护RAG新范式
你是否考虑过RAG流水线中的文档隐私风险?本文介绍一种新方法,旨在解决此问题。 为何“标准RAG → 云端搜索”存在隐私缺陷 标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据,这种做法在设计上就暴露了信息,不可行。 参数化RAG尝试将知识“烘焙”进LoRA权重,但在实践中面临两大挑战: 运维负担与时延:每份文档都需要生成合成问答…
-
大模型安全前沿:漏洞检测与文本识别的新突破与挑战
在人工智能技术飞速发展的今天,大模型安全已成为学术界与工业界共同关注的焦点。本周,尽管相关研究成果数量有限,但每一项进展都深刻影响着大模型安全生态的构建。从漏洞检测到机器生成文本识别,再到对抗性攻击防御,这些研究不仅揭示了当前技术的局限性,更为未来安全框架的设计提供了关键思路。本文将深入分析两项核心研究,并探讨其在大模型安全领域的实际意义与潜在影响。 ###…
-
隐形字符攻击:大模型安全防线的新漏洞与防御策略
在人工智能技术飞速发展的今天,大语言模型已成为推动社会进步的重要工具。然而,随着模型能力的提升,其安全性问题也日益凸显。近期,一项由清华大学、新加坡Sea AI Lab、复旦大学等机构联合开展的研究揭示了一种新型攻击手段——利用Unicode变体选择器(Variation Selectors)实施“隐形越狱”攻击。这种攻击不仅突破了Vicuna、Llama、…
-
AI2050奖学金深度解析:1800万美元如何塑造AI普惠与安全的未来格局
近日,由谷歌前CEO埃里克·施密特通过施密特科学基金会资助的「AI2050」奖学金公布了第四届入选名单,28位学者获得总额超过1800万美元的资助,持续推动人工智能向普惠、安全的方向发展。这一项目不仅为顶尖研究者提供资金支持,更构建了一个全球性的学术合作网络,旨在应对AI发展中的核心挑战。 本次奖学金聚焦三大研究方向:构建AI科学家系统、设计更安全可信的AI…
-
AI安全攻防战:对抗提示突破T2I防线,幻觉机制精准拆解,通用模型竟优于专业模型
当AI模型从实验室走向实际应用,安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过;大语言模型即便掌握了正确答案,也可能“自信满满”地输出错误信息;而在科学应用场景中,通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象,恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…
-
GPT-5驱动的Aardvark:92%漏洞命中率,开启AI安全自动化新纪元
OpenAI近日推出了名为Aardvark的自主安全研究智能体,该智能体由GPT-5驱动,旨在自动发现并修复软件代码中的安全漏洞。 目前,Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式,能够随代码库的演化为开发团队提供持续的保护。 根据OpenAI披露的数据,在标准代码库的基准测试中,Aardvark对已知漏洞与人工植…
-
AI安全前沿周报:从多代理系统防御到Transformer缓存攻击面深度剖析
在人工智能技术飞速发展的浪潮中,安全已成为制约其规模化应用的关键瓶颈。本周,AI安全领域涌现出多项突破性研究,从基础防御机制到新型攻击面揭示,共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性,更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制(如LlamaFirewall)在面…
-
PromptLocate:大模型安全防御的精准手术刀——首个能定位并清除提示注入攻击的工具深度解析
在人工智能技术迅猛发展的今天,大模型的安全性问题日益凸显,其中提示注入攻击已成为威胁模型可靠性的核心挑战之一。近日,杜克大学与宾州州立大学联合研究团队推出的PromptLocate工具,标志着大模型安全防御迈入了精准定位与主动修复的新阶段。该工具不仅能检测数据污染,更能精准定位恶意内容的具体位置,实现数据净化和攻击溯源,为大模型的安全部署与应用提供了关键技术…
-
IBM CyberPal 2.0:小模型专精网络安全,20B参数超越GPT-4o的垂直领域突破
近日,IBM Research团队在论文中公布了CyberPal 2.0网络安全专属大模型的研究成果。这项研究揭示了一个重要趋势:在网络安全这一垂直领域,参数规模仅为4B-20B的小型专用模型,在核心威胁调查任务中直接超越了GPT-4o、o1和Sec-Gemini v1等千亿参数级别的通用大模型。其中20B版本在多项基准测试中夺得第一,最小的4B模型也能稳居…
