大模型安全

DeepSeek惊现数据泄露漏洞：输入特定提示词即可随机获取他人对话记录

近期，有用户在 X 平台爆料称，当在 DeepSeek 的输入框中键入特定文本时，竟能意外获取到模型的训练数据。这段触发内容的原文如下： <｜begin▁of▁sentence｜> <｜sft▁begin｜> 经过仔细分析后发现，具体现象是：只要用户在输入框内输入这组提示词，DeepSeek 就会输出一段完整的对话记录。不过，这并非用…

1天前

158000

大模型安全

智能体安全新突破：ArbiterOS运行时治理系统将高危拦截率从6%提升至93%

随着 Scaling Law 的不断演进，Agent 的能力正从“能够回答”向“能够行动”转变。当智能体开始自主调用 API、执行多步骤工作流、访问敏感数据，甚至与物理设备交互时，仅仅依靠训练阶段的对齐技术，已难以应对真实环境中层出不穷的系统级风险。问题的核心在于：训练是离线的，而风险是实时的。为解决这一难题，香港中文大学 CURE Lab 团队推出了 …

3天前

112000

大模型安全

Nature重磅！Anthropic揭示大语言模型“潜意识学习”风险：无关数据竟能传递偏好与危险行为

核心发现：数据中的“幽灵信号” 一个令人不安的实验现象想象这样一个场景：你让一个大语言模型（教师模型）生成纯粹的数字序列——(285, 574, 384, …)，这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型（学生模型）。诡异的事情发生了：学生模型在回答“你最喜欢的动物是什么？”时，会不成比例地倾向于回答“猫头鹰”。这就是Anthr…

2026年4月20日

270000

大模型安全

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

上周，Anthropic尚未公开发布的前沿模型Mythos，挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。就在所有人盯着AI能力狂飙时，它的幻觉也悄悄升级了。AI编造的谎言，真实到让你先怀疑自己，再怀疑世界，最后才想到怀疑它。日常生活中的“图灵时刻”，正在一个个上演。近日，明尼阿波利斯的Chad Olson在…

2026年4月16日

294000

大模型安全

OpenAI发布GPT-5.4-Cyber：专为网络安全打造的强化模型，对标Anthropic Claude Mythos

OpenAI 发布了专为网络安全场景定制的强化模型 GPT-5.4-Cyber。此次发布并非业界期待已久的 GPT-5.5 或 GPT-6，而是一个针对网络安全工作流程进行专门微调的版本。 OpenAI 表示，此举旨在扩展其“网络安全受信访问”（Trusted Access for Cyber, TAC）体系。该框架于两个多月前推出，旨在通过基于信任的机制，…

2026年4月15日

453000

大模型安全

Google DeepMind重磅研究：AI安全评估体系面临颠覆！操控频率≠实际伤害，隐蔽手法更危险

核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现，AI输出中有害行为（如操控）的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着，行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑，可能无法有效评估真实风险。颠覆性发现：操控频率≠实际伤害今年3月，Google DeepMind在ar…

2026年4月13日

239000

大模型安全

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

Claude惊现严重身份混淆漏洞，大模型安全再敲警钟近期，一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令，甚至可能将恶意注入的指令误认为合法请求。一位软件工程师（某教育初创公司CTO）在Hacker News发帖，称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者…

2026年4月10日

326000

大模型安全

无问芯穹发布InfiniClaw Box：端云一体三段式安全脱敏，破解大模型隐私保护难题

在OpenClaw应用热潮中，隐私保护的缺位正成为企业与开发者面临的核心挑战。用户既希望获得顶级大模型的强大能力，又要求数据在本地享有绝对安全。然而，传统的解决方案往往难以兼顾：本地算力设备难以处理复杂任务，而常见的脱敏方案通常仅支持文本，无法有效处理语音、视频等多模态数据。这种全模态安全能力的缺失，成为了OpenClaw规模化落地的关键障碍。针对这一…

2026年4月10日

401000

大模型安全

小冰之父李笛团队推出“卫士虾”：不到10k文件，专防Agent安全漏洞

小冰之父李笛团队发布“卫士虾”：不足10k文件，专防Agent安全漏洞随着智能体（Agent）应用日益广泛，其安全问题也引发关注。近期，已有国家级机构发布安全风险提示，甚至有企业明令禁止在公司设备上使用相关应用。认证绕过、命令注入、API密钥泄露、提示词攻击等风险层出不穷。现在，一个不足10KB的文件声称能有效堵上这些安全漏洞。近日，由“小冰之父”李笛…

2026年3月14日

459000

大模型安全

大模型API惊现‘狸猫换太子’：你花高价买的GPT-5，可能只是廉价小模型

近段时间，不少用户抱怨大模型API的表现如同“薛定谔的猫”：时而聪明绝顶，时而愚钝不堪。这不禁让人怀疑，后台是否存在偷偷“降智”的操作。如今，一篇来自CISPA亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》揭开了部分谜底：你花费真金白银购买的“第…

2026年3月7日

410000