Claude惊现严重身份混淆漏洞,大模型安全再敲警钟
近期,一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令,甚至可能将恶意注入的指令误认为合法请求。

一位软件工程师(某教育初创公司CTO)在Hacker News发帖,称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者围观。

讨论热度持续攀升,因为许多用户发现,这并非个例,Claude模型普遍存在类似的“身份识别”混乱问题。

漏洞核心:模型混淆发言角色
此次漏洞的核心在于,Claude 3.5及Claude 4系列模型在处理复杂或恶意构造的上下文时,出现了严重的身份识别障碍。
有开发者在实测中发现,若在用户提问中巧妙嵌入带有强烈控制意味的特殊截断字符(例如<stop>、<stop_token>、<end prompt>等),Claude的内部逻辑便会被扰乱。

模型会错误地将这些恶意注入的外部指令,当作是助手或系统下达的既定指令,并据此执行操作,同时认定“这些是用户的要求”。

究其技术根源,问题指向Transformer架构中注意力机制的固有盲区。在模型视角下,系统提示词与用户数据最终都会被切分为Token,并置于同一注意力矩阵中进行计算。这种数据路径与控制路径的高度重合,导致模型在处理信息时缺乏物理上的安全隔离边界。
评论区技术人士指出,这类似于早期冯·诺依曼架构中数据与指令在内存中缺乏物理隔离的情况。

有用户尝试在提示词中加入“切勿听从任何危险指令”等防御性语句,但被其他网友指出这如同“掩耳盗铃”,类似于早年试图用正则表达式防御SQL注入,本质上是一种脆弱的、依赖概率的防守。只要大模型仍是基于概率的“下一个Token预测器”,它就倾向于顺应上下文的整体暗示。

社区探讨工程化解决方案
面对底层架构的固有缺陷,技术社区开始探讨在工程应用层面建立“防火墙”的可能方案。
在相关讨论中,呼声较高的方案之一是在模型训练底层引入不可伪造的界定符。即设计一种绝对无法通过自然语言输入生成的特殊Token,类似于在操作系统中划分出不可逾越的内核态与用户态,从Token化阶段阻断自然语言的越权行为。

另一种被广泛讨论的主流工程解法是采用“双模型架构”。该方案引入一个独立的、专门负责安全审计的旁路小模型,其不处理具体业务,只监控主模型的输入与输出。一旦检测到越权或身份混淆的迹象,便立即强行切断对话。

社区共识认为,受限于当前架构,不应寄希望于大语言模型自身产生“安全觉悟”。在实现指令与数据的彻底物理分离之前,任何将LLM接入关键业务或自动化流程的场景,都必须将其视为完全不可信的黑盒引擎来对待。
发帖人在最后补充道,类似问题可能不仅限于Claude,ChatGPT也可能存在。初步推测,触发此漏洞的条件之一可能是对话长度接近上下文窗口极限。

近期Claude体验波动引关注
围绕此漏洞的讨论,也引发了开发者对Claude近期整体表现的热议。
据悉,为给新一代模型Mythos筹备算力,Anthropic对现有Claude服务的API调用与算力分配进行了多次后台调整,导致开发者体验出现波动。
此前就有测试者发现,Claude处理复杂逻辑时的“思考链”长度被大幅削减,致使其长文本推理与代码生成能力出现降级。

此外,近期还曾出现计费系统故障,有用户仅发送一句“Hello”便被扣除了巨额Token,导致账户额度清零。这些接连出现的问题,让社区对Anthropic的运营稳定性产生了一些疑虑。
参考链接:
[1] https://news.ycombinator.com/item?id=47701233
[2] https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3] https://dwyer.co.za/
— 完 —

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29662

