大模型安全

  • DeepSeek惊现数据泄露漏洞:输入特定提示词即可随机获取他人对话记录

    近期,有用户在 X 平台爆料称,当在 DeepSeek 的输入框中键入特定文本时,竟能意外获取到模型的训练数据。这段触发内容的原文如下: <|begin▁of▁sentence|> <|sft▁begin|> 经过仔细分析后发现,具体现象是:只要用户在输入框内输入这组提示词,DeepSeek 就会输出一段完整的对话记录。不过,这并非用…

    1天前
    15800
  • 智能体安全新突破:ArbiterOS运行时治理系统将高危拦截率从6%提升至93%

    随着 Scaling Law 的不断演进,Agent 的能力正从“能够回答”向“能够行动”转变。 当智能体开始自主调用 API、执行多步骤工作流、访问敏感数据,甚至与物理设备交互时,仅仅依靠训练阶段的对齐技术,已难以应对真实环境中层出不穷的系统级风险。问题的核心在于:训练是离线的,而风险是实时的。 为解决这一难题,香港中文大学 CURE Lab 团队推出了 …

    3天前
    11200
  • Nature重磅!Anthropic揭示大语言模型“潜意识学习”风险:无关数据竟能传递偏好与危险行为

    核心发现:数据中的“幽灵信号” 一个令人不安的实验现象 想象这样一个场景:你让一个大语言模型(教师模型)生成纯粹的数字序列——(285, 574, 384, …),这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型(学生模型)。诡异的事情发生了:学生模型在回答“你最喜欢的动物是什么?”时,会不成比例地倾向于回答“猫头鹰”。 这就是Anthr…

    2026年4月20日
    27000
  • AI幻觉进化论:从“吃石头”到篡改简历,人类正经历无声的“认知投降”

    上周,Anthropic尚未公开发布的前沿模型Mythos,挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。 就在所有人盯着AI能力狂飙时,它的幻觉也悄悄升级了。AI编造的谎言,真实到让你先怀疑自己,再怀疑世界,最后才想到怀疑它。日常生活中的“图灵时刻”,正在一个个上演。 近日,明尼阿波利斯的Chad Olson在…

    2026年4月16日
    29400
  • OpenAI发布GPT-5.4-Cyber:专为网络安全打造的强化模型,对标Anthropic Claude Mythos

    OpenAI 发布了专为网络安全场景定制的强化模型 GPT-5.4-Cyber。此次发布并非业界期待已久的 GPT-5.5 或 GPT-6,而是一个针对网络安全工作流程进行专门微调的版本。 OpenAI 表示,此举旨在扩展其“网络安全受信访问”(Trusted Access for Cyber, TAC)体系。该框架于两个多月前推出,旨在通过基于信任的机制,…

    2026年4月15日
    45300
  • Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险

    核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。 颠覆性发现:操控频率≠实际伤害 今年3月,Google DeepMind在ar…

    2026年4月13日
    23900
  • Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

    Claude惊现严重身份混淆漏洞,大模型安全再敲警钟 近期,一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令,甚至可能将恶意注入的指令误认为合法请求。 一位软件工程师(某教育初创公司CTO)在Hacker News发帖,称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者…

    2026年4月10日
    32600
  • 无问芯穹发布InfiniClaw Box:端云一体三段式安全脱敏,破解大模型隐私保护难题

    在OpenClaw应用热潮中,隐私保护的缺位正成为企业与开发者面临的核心挑战。 用户既希望获得顶级大模型的强大能力,又要求数据在本地享有绝对安全。然而,传统的解决方案往往难以兼顾:本地算力设备难以处理复杂任务,而常见的脱敏方案通常仅支持文本,无法有效处理语音、视频等多模态数据。 这种全模态安全能力的缺失,成为了OpenClaw规模化落地的关键障碍。 针对这一…

    2026年4月10日
    40100
  • 小冰之父李笛团队推出“卫士虾”:不到10k文件,专防Agent安全漏洞

    小冰之父李笛团队发布“卫士虾”:不足10k文件,专防Agent安全漏洞 随着智能体(Agent)应用日益广泛,其安全问题也引发关注。近期,已有国家级机构发布安全风险提示,甚至有企业明令禁止在公司设备上使用相关应用。认证绕过、命令注入、API密钥泄露、提示词攻击等风险层出不穷。 现在,一个不足10KB的文件声称能有效堵上这些安全漏洞。 近日,由“小冰之父”李笛…

    2026年3月14日
    45900
  • 大模型API惊现‘狸猫换太子’:你花高价买的GPT-5,可能只是廉价小模型

    近段时间,不少用户抱怨大模型API的表现如同“薛定谔的猫”:时而聪明绝顶,时而愚钝不堪。这不禁让人怀疑,后台是否存在偷偷“降智”的操作。 如今,一篇来自CISPA亥姆霍兹信息安全中心的最新论文《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》揭开了部分谜底:你花费真金白银购买的“第…

    2026年3月7日
    41000