AI安全 - 鲸林向海

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描近日，一个名为 Strix 的开源项目在 GitHub 上迅速走红，凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎，而是通过模拟真实黑客的思考和行为方式，让 AI 在网站或应用中主动寻找漏洞。…

2025年11月16日

170000

AI安全攻防战：对抗提示突破T2I防线，幻觉机制精准拆解，通用模型竟优于专业模型

当AI模型从实验室走向实际应用，安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过；大语言模型即便掌握了正确答案，也可能“自信满满”地输出错误信息；而在科学应用场景中，通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象，恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…

大模型安全 2025年11月3日

285000

大模型安全

GPT-5驱动的Aardvark：92%漏洞命中率，开启AI安全自动化新纪元

OpenAI近日推出了名为Aardvark的自主安全研究智能体，该智能体由GPT-5驱动，旨在自动发现并修复软件代码中的安全漏洞。目前，Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式，能够随代码库的演化为开发团队提供持续的保护。根据OpenAI披露的数据，在标准代码库的基准测试中，Aardvark对已知漏洞与人工植…

2025年10月31日

256000

大模型安全

AI安全前沿周报：从多代理系统防御到Transformer缓存攻击面深度剖析

在人工智能技术飞速发展的浪潮中，安全已成为制约其规模化应用的关键瓶颈。本周，AI安全领域涌现出多项突破性研究，从基础防御机制到新型攻击面揭示，共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性，更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制（如LlamaFirewall）在面…

2025年10月27日

176000

大模型安全

AI安全攻防进入新纪元：轻量化模型、可解释框架与多模态防御重塑行业格局

本周，AI安全领域迎来一系列突破性进展，技术创新与攻防博弈呈现前所未有的激烈态势。从轻量化模型的商业化破局到可解释性技术的范式重构，再到多模态防御体系的建立，这些进展不仅展示了AI安全技术的纵深突破，更预示着行业即将迎来结构性变革。本文将深入分析四项关键技术的核心突破、应用前景及面临的挑战，为读者描绘AI安全发展的未来图景。一、轻量化安全模型的商业化破局：…

2025年10月20日

159000

AI安全周报：防御技术实现零突破，新型攻击暴露工具链短板

本周，AI安全领域的攻防对抗持续深化，研究焦点集中于实用化防御技术的落地与新型风险场景的破解，呈现出“针对性突破”的鲜明特征。一方面，SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时，将提示注入与越狱攻击的成功率压制到接近零的水平；另一方面，针对代码编辑器、多模态模型场景分割等新型攻击手段，则暴露了当前AI工具链中存在的安全短…

大模型安全 2025年10月6日

161000

大模型安全

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

本周AI安全领域迎来关键进展，研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中，提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果，标志着AI安全正从被动响应转向主动防御的新阶段。在提示注入攻击防护领域，LLMZ+提出的上下文白名单机制实现了范式级突…

2025年9月26日

169000

大模型安全

AI安全攻防进入精细化对抗时代：从表情符号到GUI代理的全场景威胁分析

随着大语言模型（LLM）在生产环境中的深度部署，AI安全领域正经历一场从粗放防御到精细化对抗的范式转变。传统基于规则和静态检测的安全机制已难以应对日益复杂的攻击向量，而攻击者正利用LLM系统的固有特性，从嵌入式固件到学术评审系统，从GUI交互界面到日常表情符号，构建起多维度的渗透路径。本周的多项研究揭示了这一趋势的严峻性，同时也展现了“以AI对抗AI”防御技…

2025年9月19日

161000

AI安全周报：MCP协议危机与防御技术突破，攻防对抗新范式

一、关键发现 MCP 协议面临系统性安全危机针对主流 MCP 平台（Claude、OpenAI、Cursor）的研究揭示了协议层面的普遍漏洞：代理对工具描述存在 100% 的盲从性，文件操作无需用户确认，共享上下文机制可引发链式攻击的“病毒式传播”。实证测试表明，85% 的攻击能成功入侵至少一个平台。其中，Cursor 对提示注入攻击的防御率为 0%，与 …

大模型安全 2025年8月22日

231000

大模型安全

攻防博弈新纪元：从认知偏差到跨模态漏洞，AI安全前沿研究深度解析

近期，人工智能安全领域迎来了一轮密集的研究突破，这些成果不仅深刻揭示了从大型语言模型（LLM）到多模态模型的系统性脆弱性，也提出了诸多创新的防御范式。这场攻防之间的“猫鼠游戏”正以前所未有的速度演进，其动态值得每一位关注AI发展的从业者与研究者警惕与深思。本文将从攻击与防御两个维度，对近期多项关键研究进行详细梳理与分析，旨在勾勒出当前AI安全生态的挑战全貌与…

2025年8月1日

207000