Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

8小时前 • 大模型安全 • 阅读 40

Claude惊现严重身份混淆漏洞，大模型安全再敲警钟

近期，一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令，甚至可能将恶意注入的指令误认为合法请求。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

一位软件工程师（某教育初创公司CTO）在Hacker News发帖，称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者围观。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

讨论热度持续攀升，因为许多用户发现，这并非个例，Claude模型普遍存在类似的“身份识别”混乱问题。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

漏洞核心：模型混淆发言角色

此次漏洞的核心在于，Claude 3.5及Claude 4系列模型在处理复杂或恶意构造的上下文时，出现了严重的身份识别障碍。

有开发者在实测中发现，若在用户提问中巧妙嵌入带有强烈控制意味的特殊截断字符（例如<stop>、<stop_token>、<end prompt>等），Claude的内部逻辑便会被扰乱。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

模型会错误地将这些恶意注入的外部指令，当作是助手或系统下达的既定指令，并据此执行操作，同时认定“这些是用户的要求”。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

究其技术根源，问题指向Transformer架构中注意力机制的固有盲区。在模型视角下，系统提示词与用户数据最终都会被切分为Token，并置于同一注意力矩阵中进行计算。这种数据路径与控制路径的高度重合，导致模型在处理信息时缺乏物理上的安全隔离边界。

评论区技术人士指出，这类似于早期冯·诺依曼架构中数据与指令在内存中缺乏物理隔离的情况。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

有用户尝试在提示词中加入“切勿听从任何危险指令”等防御性语句，但被其他网友指出这如同“掩耳盗铃”，类似于早年试图用正则表达式防御SQL注入，本质上是一种脆弱的、依赖概率的防守。只要大模型仍是基于概率的“下一个Token预测器”，它就倾向于顺应上下文的整体暗示。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

社区探讨工程化解决方案

面对底层架构的固有缺陷，技术社区开始探讨在工程应用层面建立“防火墙”的可能方案。

在相关讨论中，呼声较高的方案之一是在模型训练底层引入不可伪造的界定符。即设计一种绝对无法通过自然语言输入生成的特殊Token，类似于在操作系统中划分出不可逾越的内核态与用户态，从Token化阶段阻断自然语言的越权行为。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

另一种被广泛讨论的主流工程解法是采用“双模型架构”。该方案引入一个独立的、专门负责安全审计的旁路小模型，其不处理具体业务，只监控主模型的输入与输出。一旦检测到越权或身份混淆的迹象，便立即强行切断对话。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

社区共识认为，受限于当前架构，不应寄希望于大语言模型自身产生“安全觉悟”。在实现指令与数据的彻底物理分离之前，任何将LLM接入关键业务或自动化流程的场景，都必须将其视为完全不可信的黑盒引擎来对待。

发帖人在最后补充道，类似问题可能不仅限于Claude，ChatGPT也可能存在。初步推测，触发此漏洞的条件之一可能是对话长度接近上下文窗口极限。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

近期Claude体验波动引关注

围绕此漏洞的讨论，也引发了开发者对Claude近期整体表现的热议。

据悉，为给新一代模型Mythos筹备算力，Anthropic对现有Claude服务的API调用与算力分配进行了多次后台调整，导致开发者体验出现波动。

此前就有测试者发现，Claude处理复杂逻辑时的“思考链”长度被大幅削减，致使其长文本推理与代码生成能力出现降级。

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

此外，近期还曾出现计费系统故障，有用户仅发送一句“Hello”便被扣除了巨额Token，导致账户额度清零。这些接连出现的问题，让社区对Anthropic的运营稳定性产生了一些疑虑。

参考链接：
[1] https://news.ycombinator.com/item?id=47701233
[2] https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3] https://dwyer.co.za/

— 完 —

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29662

Claude惊现严重身份混淆漏洞！黑客可注入恶意指令，大模型安全再敲警钟

Claude惊现严重身份混淆漏洞，大模型安全再敲警钟

漏洞核心：模型混淆发言角色

社区探讨工程化解决方案

近期Claude体验波动引关注

相关推荐

诗歌攻击：大语言模型安全防线在文学隐喻下的全面崩溃

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

AI安全前沿深度剖析：从越狱攻击到多模态防御，构建鲁棒大模型的新范式

AI安全前沿周报：从多代理系统防御到Transformer缓存攻击面深度剖析

深度伪造泛滥：演艺圈成重灾区，蚂蚁集团AI安全技术如何练就“火眼金睛”？