大模型安全

小冰之父李笛团队推出“卫士虾”：不到10k文件，专防Agent安全漏洞

小冰之父李笛团队发布“卫士虾”：不足10k文件，专防Agent安全漏洞随着智能体（Agent）应用日益广泛，其安全问题也引发关注。近期，已有国家级机构发布安全风险提示，甚至有企业明令禁止在公司设备上使用相关应用。认证绕过、命令注入、API密钥泄露、提示词攻击等风险层出不穷。现在，一个不足10KB的文件声称能有效堵上这些安全漏洞。近日，由“小冰之父”李笛…

6天前

186000

大模型安全

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

近段时间，不少用户抱怨大模型API的表现如同“薛定谔的猫”：时而聪明绝顶，时而愚钝不堪。这不禁让人怀疑，后台是否存在偷偷“降智”的操作。如今，一篇来自CISPA亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》揭开了部分谜底：你花费真金白银购买的“第…

2026年3月7日

80000

大模型安全

GPT之父Alec Radford颠覆性研究：用Token级「脑部手术」切除大模型危险知识，重学成本暴增7000倍

Alec Radford，出生于1993年，是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者，并深度参与了GPT-3、GPT-4及PPO算法等关键项目，其工作已获得超过32万次学术引用。近日，他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究，挑战了当前大模型安全领域的一个核心范式…

2026年3月1日

129000

AI产业动态

AI安全前沿：因果推理与稀疏自编码器驱动的LLM越狱攻击突破

本期关注2026年2月9日arXiv上发布的AI安全前沿研究，核心内容如下： 🤖 CFA2框架利用因果推理和稀疏自编码器实现对LLMs的高成功率、低复杂度越狱攻击。 – Causal Front-Door Adjustment for Robust Jailbreak Attacks on LLMs (http://arxiv.org/pdf/2…

2026年2月9日

400000

AI产业动态

大模型安全新挑战：多场景脆弱性暴露与高效防御框架解析

一、关键发现近期研究揭示，大型语言模型在多种应用场景中均表现出显著的安全脆弱性，而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击，到物理世界导航代理的高风险漏洞，模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制，为企业提供了构建场景化安全防线的可行…

2026年1月26日

380000

AI产业动态

揭秘Promptware：大模型安全新威胁的“五步杀链”

当你用企业大模型处理邮件、分析数据乃至控制智能办公设备时，可能尚未意识到——针对大模型的攻击早已超越了“让模型说脏话”的初级阶段。近期，一项由顶尖安全专家进行的研究揭示：针对大模型的攻击已演变为完整的“恶意软件”形态，研究者将其命名为“Promptware”（提示恶意软件）。这类攻击不再是单次的“提示注入”，而是像Stuxnet、NotPetya等传统高级…

2026年1月23日

287000

AI产业动态

AI安全新突破：揭秘LLMs新型攻击链与高效防御策略

AI安全新突破：揭秘LLMs新型攻击链与高效防御策略（一）本周的研究聚焦于大型语言模型面临的新型攻击方式与创新防御策略。这些成果揭示了模型在文本布局、推理和生成过程中的固有弱点，展现了AI安全领域的最新进展。分析表明，当前攻击方法的成功率显著提升，而相应的防御技术也正朝着高效、实用和精细化的方向发展，这对构建更可靠、更安全的AI系统至关重要。一、关键发现…

2026年1月19日

995000

大模型安全

Claude Code入侵智能家居：AI逆向工程狂欢暴露物联网安全危机

Andrej Karpathy受网友启发，进行了一项有趣的实验：让Claude Code入侵他家的Lutron智能家居系统。整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器，扫描开放端口，随后在线查阅设备文档，甚至指导用户完成证书配对。最终，它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…

2025年12月28日

190000

硅基战争时代降临：AI代理自动化攻击占比90%，大模型安全格局剧变

大模型安全的“天”真的变了。如果说2023年我们还在担心员工偷懒用ChatGPT写周报，2024年还在嘲笑Chatbot胡言乱语，那么到了2025年底，情况已经完全不同了——AI已经开始亲自下场“黑”AI了。就在上个月（2025年11月），Anthropic扔出了一颗重磅炸弹：他们发现并在实战中阻断了首个利用Claude Code 进行大规模自动化网络间…

大模型安全 2025年12月26日

235000

大模型安全

大模型安全前沿：漏洞检测与文本识别的新突破与挑战

在人工智能技术飞速发展的今天，大模型安全已成为学术界与工业界共同关注的焦点。本周，尽管相关研究成果数量有限，但每一项进展都深刻影响着大模型安全生态的构建。从漏洞检测到机器生成文本识别，再到对抗性攻击防御，这些研究不仅揭示了当前技术的局限性，更为未来安全框架的设计提供了关键思路。本文将深入分析两项核心研究，并探讨其在大模型安全领域的实际意义与潜在影响。 ###…

2025年11月10日

165000