AI安全 - 鲸林向海

技术竞争与安全危机：OpenAI在Gemini 3冲击下的双重困境

在人工智能领域快速演进的2025年，OpenAI正面临前所未有的双重挑战。一方面，技术竞争的激烈程度达到新高；另一方面，激进组织的安全威胁将理论争议转化为现实危机。这一系列事件不仅反映了AI行业的技术迭代速度，更揭示了技术发展与社会安全之间的复杂张力。技术层面的竞争首先体现在模型性能的对比上。Google发布的Gemini 3模型确实在多个基准测试中展现出…

2025年11月23日

330000

大模型安全

AI安全攻防新纪元：多模态越狱、加密指纹与自动化漏洞检测的技术突破

近期，一系列前沿研究揭示了人工智能安全领域的重要进展，从攻击向量创新到防御技术突破，为构建更可靠的AI系统提供了关键见解。这些研究不仅展示了当前大型语言模型（LLM）面临的安全挑战，更提出了切实可行的解决方案，推动着AI安全从被动防御向主动防护的范式转变。在攻击向量方面，研究发现了语言风格重写这一新型越狱手段。通过将恶意请求改写为恐惧、同情或好奇等特定风格…

2025年11月17日

313000

大模型安全

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描

AI黑客团队Strix：一周狂揽8K星，用多智能体协同渗透测试颠覆传统安全扫描近日，一个名为 Strix 的开源项目在 GitHub 上迅速走红，凭借其创新的理念在一周内就获得了近 8K 的 Star。 Strix 的理念与传统安全扫描工具有本质区别。它并非一个简单的规则匹配引擎，而是通过模拟真实黑客的思考和行为方式，让 AI 在网站或应用中主动寻找漏洞。…

2025年11月16日

321000

AI安全攻防战：对抗提示突破T2I防线，幻觉机制精准拆解，通用模型竟优于专业模型

当AI模型从实验室走向实际应用，安全与可靠性的博弈日趋白热化。文本到图像模型的安全防线可能被“隐形”的对抗性提示轻易绕过；大语言模型即便掌握了正确答案，也可能“自信满满”地输出错误信息；而在科学应用场景中，通用模型的表现甚至可能超越为特定领域打造的专业模型。这些看似矛盾的现象，恰恰构成了当前AI安全领域最核心的挑战。本期《AI安全周刊》将深入探讨从利用LLM…

大模型安全 2025年11月3日

531000

大模型安全

GPT-5驱动的Aardvark：92%漏洞命中率，开启AI安全自动化新纪元

OpenAI近日推出了名为Aardvark的自主安全研究智能体，该智能体由GPT-5驱动，旨在自动发现并修复软件代码中的安全漏洞。目前，Aardvark处于beta测试阶段。OpenAI将其定位为一种“防御者优先”的新范式，能够随代码库的演化为开发团队提供持续的保护。根据OpenAI披露的数据，在标准代码库的基准测试中，Aardvark对已知漏洞与人工植…

2025年10月31日

420000

大模型安全

AI安全前沿周报：从多代理系统防御到Transformer缓存攻击面深度剖析

在人工智能技术飞速发展的浪潮中，安全已成为制约其规模化应用的关键瓶颈。本周，AI安全领域涌现出多项突破性研究，从基础防御机制到新型攻击面揭示，共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性，更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制（如LlamaFirewall）在面…

2025年10月27日

328000

大模型安全

AI安全攻防进入新纪元：轻量化模型、可解释框架与多模态防御重塑行业格局

本周，AI安全领域迎来一系列突破性进展，技术创新与攻防博弈呈现前所未有的激烈态势。从轻量化模型的商业化破局到可解释性技术的范式重构，再到多模态防御体系的建立，这些进展不仅展示了AI安全技术的纵深突破，更预示着行业即将迎来结构性变革。本文将深入分析四项关键技术的核心突破、应用前景及面临的挑战，为读者描绘AI安全发展的未来图景。一、轻量化安全模型的商业化破局：…

2025年10月20日

325000

AI安全周报：防御技术实现零突破，新型攻击暴露工具链短板

本周，AI安全领域的攻防对抗持续深化，研究焦点集中于实用化防御技术的落地与新型风险场景的破解，呈现出“针对性突破”的鲜明特征。一方面，SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时，将提示注入与越狱攻击的成功率压制到接近零的水平；另一方面，针对代码编辑器、多模态模型场景分割等新型攻击手段，则暴露了当前AI工具链中存在的安全短…

大模型安全 2025年10月6日

333000

大模型安全

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

本周AI安全领域迎来关键进展，研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中，提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果，标志着AI安全正从被动响应转向主动防御的新阶段。在提示注入攻击防护领域，LLMZ+提出的上下文白名单机制实现了范式级突…

2025年9月26日

359000

大模型安全

AI安全攻防进入精细化对抗时代：从表情符号到GUI代理的全场景威胁分析

随着大语言模型（LLM）在生产环境中的深度部署，AI安全领域正经历一场从粗放防御到精细化对抗的范式转变。传统基于规则和静态检测的安全机制已难以应对日益复杂的攻击向量，而攻击者正利用LLM系统的固有特性，从嵌入式固件到学术评审系统，从GUI交互界面到日常表情符号，构建起多维度的渗透路径。本周的多项研究揭示了这一趋势的严峻性，同时也展现了“以AI对抗AI”防御技…

2025年9月19日

291000