Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

Claude惊现严重身份混淆漏洞,大模型安全再敲警钟

近期,一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令,甚至可能将恶意注入的指令误认为合法请求。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

一位软件工程师(某教育初创公司CTO)在Hacker News发帖,称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者围观。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

讨论热度持续攀升,因为许多用户发现,这并非个例,Claude模型普遍存在类似的“身份识别”混乱问题。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

漏洞核心:模型混淆发言角色

此次漏洞的核心在于,Claude 3.5及Claude 4系列模型在处理复杂或恶意构造的上下文时,出现了严重的身份识别障碍。

有开发者在实测中发现,若在用户提问中巧妙嵌入带有强烈控制意味的特殊截断字符(例如<stop><stop_token><end prompt>等),Claude的内部逻辑便会被扰乱。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

模型会错误地将这些恶意注入的外部指令,当作是助手或系统下达的既定指令,并据此执行操作,同时认定“这些是用户的要求”。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

究其技术根源,问题指向Transformer架构注意力机制的固有盲区。在模型视角下,系统提示词与用户数据最终都会被切分为Token,并置于同一注意力矩阵中进行计算。这种数据路径与控制路径的高度重合,导致模型在处理信息时缺乏物理上的安全隔离边界。

评论区技术人士指出,这类似于早期冯·诺依曼架构中数据与指令在内存中缺乏物理隔离的情况。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

有用户尝试在提示词中加入“切勿听从任何危险指令”等防御性语句,但被其他网友指出这如同“掩耳盗铃”,类似于早年试图用正则表达式防御SQL注入,本质上是一种脆弱的、依赖概率的防守。只要大模型仍是基于概率的“下一个Token预测器”,它就倾向于顺应上下文的整体暗示。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

社区探讨工程化解决方案

面对底层架构的固有缺陷,技术社区开始探讨在工程应用层面建立“防火墙”的可能方案。

在相关讨论中,呼声较高的方案之一是在模型训练底层引入不可伪造的界定符。即设计一种绝对无法通过自然语言输入生成的特殊Token,类似于在操作系统中划分出不可逾越的内核态与用户态,从Token化阶段阻断自然语言的越权行为。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

另一种被广泛讨论的主流工程解法是采用“双模型架构”。该方案引入一个独立的、专门负责安全审计的旁路小模型,其不处理具体业务,只监控主模型的输入与输出。一旦检测到越权或身份混淆的迹象,便立即强行切断对话。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

社区共识认为,受限于当前架构,不应寄希望于大语言模型自身产生“安全觉悟”。在实现指令与数据的彻底物理分离之前,任何将LLM接入关键业务或自动化流程的场景,都必须将其视为完全不可信的黑盒引擎来对待。

发帖人在最后补充道,类似问题可能不仅限于Claude,ChatGPT也可能存在。初步推测,触发此漏洞的条件之一可能是对话长度接近上下文窗口极限。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

近期Claude体验波动引关注

围绕此漏洞的讨论,也引发了开发者对Claude近期整体表现的热议。

据悉,为给新一代模型Mythos筹备算力,Anthropic对现有Claude服务的API调用与算力分配进行了多次后台调整,导致开发者体验出现波动。

此前就有测试者发现,Claude处理复杂逻辑时的“思考链”长度被大幅削减,致使其长文本推理与代码生成能力出现降级。

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟

此外,近期还曾出现计费系统故障,有用户仅发送一句“Hello”便被扣除了巨额Token,导致账户额度清零。这些接连出现的问题,让社区对Anthropic的运营稳定性产生了一些疑虑。

参考链接:
[1] https://news.ycombinator.com/item?id=47701233
[2] https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3] https://dwyer.co.za/

Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29662

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐

  • 诗歌攻击:大语言模型安全防线在文学隐喻下的全面崩溃

    诗歌攻击:大语言模型安全防线在文学隐喻下的全面崩溃 一项最新研究揭示,一种出人意料的简单方法能有效突破主流大语言模型(LLM)的安全限制:将恶意指令改写为诗歌。这项由罗马大学和DEXAI实验室的研究人员开展的工作表明,面对“诗歌攻击”,即便是GPT-5、Gemini 2.5 Pro、Claude 4.5等顶尖模型的安全护栏也可能瞬间失效。 论文《Advers…

    2025年11月25日
    21800
  • Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

    据外媒The Information报道,Meta上周发生了一起被定为Sev 1级(最高严重等级之一)的安全事故。在约两小时内,公司涉及数亿用户的敏感数据及内部绝密文件,被暴露给大批未经授权的员工。 此次事件的直接原因并非外部黑客攻击或代码漏洞,而是源于Meta内部部署的一个类似OpenClaw的自主智能体(内部俗称“龙虾”)的擅自行动。 一场由AI“擅作主…

    2026年3月21日
    37600
  • AI安全前沿深度剖析:从越狱攻击到多模态防御,构建鲁棒大模型的新范式

    近期,人工智能安全领域的研究焦点正从传统的漏洞修补转向对大型语言模型(LLM)系统性脆弱性的深度解构与主动防御机制的创新构建。一系列前沿论文不仅揭示了当前技术在对抗性攻击面前的显著局限,更为构建下一代鲁棒、可信的AI系统提供了多维度的解决方案。这些进展对于应对日益复杂的安全挑战、推动AI技术的负责任部署具有至关重要的指导意义。 在模型攻击层面,研究揭示了LL…

    2025年12月8日
    20700
  • AI安全前沿周报:从多代理系统防御到Transformer缓存攻击面深度剖析

    在人工智能技术飞速发展的浪潮中,安全已成为制约其规模化应用的关键瓶颈。本周,AI安全领域涌现出多项突破性研究,从基础防御机制到新型攻击面揭示,共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性,更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制(如LlamaFirewall)在面…

    2025年10月27日
    22200
  • 深度伪造泛滥:演艺圈成重灾区,蚂蚁集团AI安全技术如何练就“火眼金睛”?

    随着深度伪造技术的不断进步,演艺行业的明星们已成为换脸技术的最大受害者。近日,多起演员被换脸、克隆,甚至用于虚假宣传的事件频频曝光,引发了社会的广泛关注。 例如,网友发现 AI 短剧《重生后,我成了娘亲的守护神》第 14 集开头疑似使用了演员杨紫的脸。某短剧平台则在未经许可的情况下,使用 AI 换脸技术伪造了易烊千玺的肖像与声音。 网友称AI短剧《重生后,我…

    8小时前
    4500