大模型安全

AI安全攻防进入新纪元：轻量化模型、可解释框架与多模态防御重塑行业格局

本周，AI安全领域迎来一系列突破性进展，技术创新与攻防博弈呈现前所未有的激烈态势。从轻量化模型的商业化破局到可解释性技术的范式重构，再到多模态防御体系的建立，这些进展不仅展示了AI安全技术的纵深突破，更预示着行业即将迎来结构性变革。本文将深入分析四项关键技术的核心突破、应用前景及面临的挑战，为读者描绘AI安全发展的未来图景。一、轻量化安全模型的商业化破局：…

2025年10月20日

158000

大模型安全

OpenAI、Anthropic、DeepMind罕见联手，得出一个关于AI安全的惊人结论：现有LLM安全防御不堪一击

本文实测 12 种防御方法，几乎全军覆没。真是罕见，OpenAI、Anthropic、Google DeepMind 这三大竞争对手，居然联手发表了一篇论文，共同研究语言模型的安全防御评估。看来在 LLM 安全这事上，大家还是能暂时放下对抗，握手合作的。本文主要围绕一个问题展开：我们该如何评估语言模型防御机制的鲁棒性？要知道，目前针对越狱和提示注入的…

2025年10月14日

309011

大模型安全

AI安全攻防新纪元：从隐形越狱到自动化渗透的四大前沿突破

随着生成式AI与智能体技术的深度融合，人工智能安全领域正经历一场静默的革命。攻击手段已从早期可见的提示注入，悄然演变为利用不可见字符渗透的隐形威胁；而防御体系也从单一防火墙模式，升级为覆盖模型全生命周期的立体防护框架。本周，我们聚焦四项具有里程碑意义的领域研究，它们分别在大模型推理能力滥用、自动化渗透测试、蜜罐防御创新及后门攻击分类体系方面取得了关键突破，不…

2025年10月14日

166000

大模型安全

代理型LLM安全新范式：基于白名单的LLMZ+方案如何实现零误判防御

在人工智能技术快速渗透企业核心业务的今天，代理型大型语言模型（LLM）正成为企业数字化转型的关键枢纽。与传统仅提供对话功能的聊天机器人不同，代理型LLM被赋予了访问敏感数据、调用API接口、执行业务流程等关键权限，使其在企业内部扮演着类似“数字员工”的角色。然而，这种权限的扩展也带来了前所未有的安全挑战——一旦被恶意攻击者通过越狱技术控制，后果将不亚于服务器…

2025年10月9日

182000

AI安全周报：防御技术实现零突破，新型攻击暴露工具链短板

本周，AI安全领域的攻防对抗持续深化，研究焦点集中于实用化防御技术的落地与新型风险场景的破解，呈现出“针对性突破”的鲜明特征。一方面，SecInfer、SafeBehavior等创新防御方案在保持模型核心效用的同时，将提示注入与越狱攻击的成功率压制到接近零的水平；另一方面，针对代码编辑器、多模态模型场景分割等新型攻击手段，则暴露了当前AI工具链中存在的安全短…

大模型安全 2025年10月6日

160000

大模型安全

大模型安全全景图：198篇研究揭示API密钥窃取、越狱攻击与四大场景漏洞防御策略

“我们公司用大模型处理客户数据，结果 API 密钥被偷，损失百万”“ChatGPT 又被‘越狱’了，生成了制作危险物品的教程”…… 大型语言模型（LLM）已从实验室走向企业生产环境，成为降本增效的关键工具。然而，其广泛应用也引来了日益精密的攻击——从训练数据投毒以操控模型输出，到利用单行代码劫持模型行为，再到窃取企业私有数据，大模型安全已成为攻防博弈的主战场…

2025年9月29日

236000

大模型安全

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

本周AI安全领域迎来关键进展，研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中，提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果，标志着AI安全正从被动响应转向主动防御的新阶段。在提示注入攻击防护领域，LLMZ+提出的上下文白名单机制实现了范式级突…

2025年9月26日

168000

大模型安全

AI安全攻防进入精细化对抗时代：从表情符号到GUI代理的全场景威胁分析

随着大语言模型（LLM）在生产环境中的深度部署，AI安全领域正经历一场从粗放防御到精细化对抗的范式转变。传统基于规则和静态检测的安全机制已难以应对日益复杂的攻击向量，而攻击者正利用LLM系统的固有特性，从嵌入式固件到学术评审系统，从GUI交互界面到日常表情符号，构建起多维度的渗透路径。本周的多项研究揭示了这一趋势的严峻性，同时也展现了“以AI对抗AI”防御技…

2025年9月19日

161000

大模型安全

认知解构时代：大模型内生安全攻防从神经元到生态链的深度剖析

随着九月网络安全宣传周的临近，AI安全领域迎来了一轮密集的技术突破与风险揭示。本周集中发布的六篇学术论文，从不同维度直指大语言模型（LLM）的内生安全短板，标志着技术攻防正从传统的“规则对抗”向更深层次的“认知解构”范式演进。这不仅是对现有防御体系的压力测试，更是为构建下一代主动免疫式安全架构提供了关键的技术路线图。 **核心趋势：从可解释性突破到生态化风险…

2025年9月12日

176000

大模型安全

大模型安全危机全景：从攻击引擎到系统性漏洞的深度剖析

随着人工智能技术的飞速发展，大型语言模型（LLM）已从辅助工具演变为网络攻击链条的核心引擎，其安全风险正从传统领域向科研、自动化交互等细分场景快速渗透。本周披露的多项研究揭示了这一趋势的严峻性：从LLM自主生成多态勒索软件颠覆传统防御逻辑，到训练数据污染引发主流模型批量嵌入恶意URL；从AI生成钓鱼邮件点击率大幅提升，到提示注入攻击在同行评审、AI智能体等场…

2025年9月5日

187000

分类

排序

大模型安全