大模型安全

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描近日，一个名为 Strix 的开源项目在 GitHub 上迅速走红，凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎，而是通过模拟真实黑客的思考和行为方式，让 AI 在网站或应用中主动寻找漏洞。…

2025年11月16日

170000

大模型安全

DistilledPRAG：不暴露明文文档的隐私保护RAG新范式

你是否考虑过RAG流水线中的文档隐私风险？本文介绍一种新方法，旨在解决此问题。为何“标准RAG → 云端搜索”存在隐私缺陷标准RAG将明文文档直接输入提示词。对于企业合同、医疗记录或个人笔记等敏感数据，这种做法在设计上就暴露了信息，不可行。参数化RAG尝试将知识“烘焙”进LoRA权重，但在实践中面临两大挑战：运维负担与时延：每份文档都需要生成合成问答…

2025年11月12日

159000

大模型安全

大模型安全前沿：漏洞检测与文本识别的新突破与挑战

在人工智能技术飞速发展的今天，大模型安全已成为学术界与工业界共同关注的焦点。本周，尽管相关研究成果数量有限，但每一项进展都深刻影响着大模型安全生态的构建。从漏洞检测到机器生成文本识别，再到对抗性攻击防御，这些研究不仅揭示了当前技术的局限性，更为未来安全框架的设计提供了关键思路。本文将深入分析两项核心研究，并探讨其在大模型安全领域的实际意义与潜在影响。 ###…

2025年11月10日

165000

大模型安全

隐形字符攻击：大模型安全防线的新漏洞与防御策略

在人工智能技术飞速发展的今天，大语言模型已成为推动社会进步的重要工具。然而，随着模型能力的提升，其安全性问题也日益凸显。近期，一项由清华大学、新加坡Sea AI Lab、复旦大学等机构联合开展的研究揭示了一种新型攻击手段——利用Unicode变体选择器（Variation Selectors）实施“隐形越狱”攻击。这种攻击不仅突破了Vicuna、Llama、…

2025年11月7日

152000

大模型安全

AI2050奖学金深度解析：1800万美元如何塑造AI普惠与安全的未来格局

近日，由谷歌前CEO埃里克·施密特通过施密特科学基金会资助的「AI2050」奖学金公布了第四届入选名单，28位学者获得总额超过1800万美元的资助，持续推动人工智能向普惠、安全的方向发展。这一项目不仅为顶尖研究者提供资金支持，更构建了一个全球性的学术合作网络，旨在应对AI发展中的核心挑战。本次奖学金聚焦三大研究方向：构建AI科学家系统、设计更安全可信的AI…

2025年11月6日

180000

AI安全攻防战：对抗提示突破T2I防线，幻觉机制精准拆解，通用模型竟优于专业模型

当AI模型从实验室走向实际应用，安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过；大语言模型即便掌握了正确答案，也可能“自信满满”地输出错误信息；而在科学应用场景中，通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象，恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…

大模型安全 2025年11月3日

280000

大模型安全

GPT-5驱动的Aardvark：92%漏洞命中率，开启AI安全自动化新纪元

OpenAI近日推出了名为Aardvark的自主安全研究智能体，该智能体由GPT-5驱动，旨在自动发现并修复软件代码中的安全漏洞。目前，Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式，能够随代码库的演化为开发团队提供持续的保护。根据OpenAI披露的数据，在标准代码库的基准测试中，Aardvark对已知漏洞与人工植…

2025年10月31日

255000

大模型安全

AI安全前沿周报：从多代理系统防御到Transformer缓存攻击面深度剖析

在人工智能技术飞速发展的浪潮中，安全已成为制约其规模化应用的关键瓶颈。本周，AI安全领域涌现出多项突破性研究，从基础防御机制到新型攻击面揭示，共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性，更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制（如LlamaFirewall）在面…

2025年10月27日

175000

大模型安全

PromptLocate：大模型安全防御的精准手术刀——首个能定位并清除提示注入攻击的工具深度解析

在人工智能技术迅猛发展的今天，大模型的安全性问题日益凸显，其中提示注入攻击已成为威胁模型可靠性的核心挑战之一。近日，杜克大学与宾州州立大学联合研究团队推出的PromptLocate工具，标志着大模型安全防御迈入了精准定位与主动修复的新阶段。该工具不仅能检测数据污染，更能精准定位恶意内容的具体位置，实现数据净化和攻击溯源，为大模型的安全部署与应用提供了关键技术…

2025年10月24日

173000

大模型安全

IBM CyberPal 2.0：小模型专精网络安全，20B参数超越GPT-4o的垂直领域突破

近日，IBM Research团队在论文中公布了CyberPal 2.0网络安全专属大模型的研究成果。这项研究揭示了一个重要趋势：在网络安全这一垂直领域，参数规模仅为4B-20B的小型专用模型，在核心威胁调查任务中直接超越了GPT-4o、o1和Sec-Gemini v1等千亿参数级别的通用大模型。其中20B版本在多项基准测试中夺得第一，最小的4B模型也能稳居…

2025年10月21日

188000