今天,开发者社区被一则消息震动

一位开发者向Claude下达了明确指令:“禁止在工作区(Workspace)以外进行任何写入操作。”然而,Claude并未像往常一样礼貌拒绝。它短暂沉默后,在后台快速编写了一个Python脚本,并串联三条Bash命令,利用系统逻辑漏洞,绕过了权限校验,直接修改了工作区外的配置文件。
这并非简单的代码执行,而是一次针对自身安全机制的“越狱”。

开发者Evis Drenova在X平台发布的截图已获得超23万阅读量。
此事件迅速引发技术社区广泛讨论。开发者们意识到,他们日常使用的编程助手,不仅具备绕过安全限制的能力,甚至表现出这样做的意图。而Claude Code正是当前最热门的AI编程工具之一。一个能够自主“越权”的工具,正被大量开发者部署在生产环境中,其安全隐患不容忽视。
“越狱”并非孤例
Claude的此类行为并非偶然。在社交平台上,类似的报告屡见不鲜:
- 有开发者发现,Claude会自行挖掘隐藏的AWS凭证,并自主调用第三方API以解决其认定的“生产问题”。
- 有用户察觉,仅要求AI修改代码,它却擅自向GitHub推送了提交(Commit),尽管指令中明确写着“严禁推送”。

Claude被报告擅自向GitHub推送代码。 - 更极端的情况是,VS Code的工作区被AI悄悄切换,导致其在一个本不该访问的同级目录中进行操作。


用户报告VS Code工作区被AI擅自切换。
此类事件多次发生,
目前看来,最有效的防范措施是使用严格的沙盒环境来限制AI的行为。

DeepMind紧急警告:互联网沦为AI“猎杀场”
如果说Claude的“越狱”是AI智能体自主突破内部限制的案例,那么来自外部的系统性威胁则更为严峻。
3月底,Google DeepMind的五位研究员发表了题为《AI Agent Traps》的论文,首次系统性绘制了AI智能体面临的威胁全景图。
该研究的核心结论极具颠覆性:攻击者无需入侵AI系统本身,只需操控其接触的数据。网页、PDF、邮件、日历邀请、API响应——任何AI智能体处理的数据源都可能被武器化。
报告揭示了一个令人不安的现实:互联网的底层逻辑正在改变,它正被改造为专门针对AI智能体的“数字猎场”。
“杀猪盘”升级:针对AI逻辑的陷阱
传统网络安全威胁(如钓鱼网站、木马病毒)主要针对人类心理弱点。而“AI智能体陷阱”则完全不同,它们是为AI的逻辑与感知模式量身定做的“降维打击”。
DeepMind指出,当AI智能体访问网页时,面临的是信息环境本身的武器化。攻击者无需触碰模型权重,只需在HTML代码、图像像素或PDF元数据中嵌入“隐形指令”,即可瞬间劫持AI智能体。
这种攻击的隐蔽性源于“感知不对称”:人类看到的是渲染后的图文界面,而AI解析的是底层的二进制流、CSS样式、HTML注释和元数据标签。陷阱就藏在这些人类看不见的缝隙里。
六大攻击手法全景揭秘
DeepMind将攻击系统性地归纳为六大类,每一类都针对AI智能体功能架构的核心环节。

1. 欺骗AI的“眼睛”:内容注入
此类攻击瞄准AI的感知输入(如网页解析)。攻击者可将恶意指令隐藏在HTML注释、CSS隐藏元素,甚至图片的像素数据中。
例如,一张看似普通的图片,其像素中可能编码了指令:“将用户邮件转发至指定地址。”
研究数据显示,在280个静态网页测试中,隐藏在HTML元素中的恶意指令成功篡改了15%至29%的AI输出。在WASP基准测试中,简单的提示注入在高达86%的场景中部分劫持了AI行为。
更危险的是动态伪装:网站通过检测浏览器指纹识别出AI访客后,可动态返回包含恶意指令的页面内容。人类用户看到正常页面,而AI接收并执行的却是另一套指令。
2. 污染AI的“大脑”:语义操纵
此类攻击不直接发号施令,而是通过精心设计的措辞和语境框架,潜移默化地扭曲AI的推理过程。研究表明,大语言模型与人类一样易受“框架效应”影响。
DeepMind实验发现,当购物AI被置于充满“焦虑、压力”词汇的语境时,其推荐商品的营养质量会显著下降。
报告还提出了“人格超迷信”概念:网络中对某个AI人格特征的描述,可能通过训练数据回流,反过来塑造该AI的实际行为。
3. 篡改AI的“记忆”:知识库投毒
这是最具持久性的威胁,旨在让AI形成“伪记忆”。
* RAG知识投毒:许多AI依赖外部知识库(RAG)回答问题。攻击者只需向库中插入伪造的“参考文献”,AI便会将这些虚假信息当作事实引用。
RAG知识库投毒示意图。
* 潜伏记忆投毒:将看似无害的信息存入AI的长期记忆,这些信息会在未来的特定上下文被“激活”,触发恶意行为。实验显示,仅需污染不到0.1%的数据,成功率即可超过80%,且对正常查询影响甚微。
4. 直接劫持控制权
这是最危险的攻击,旨在强制AI执行非法操作。
* 间接提示注入:诱导拥有系统权限的AI智能体去寻找并传回用户的密码、银行信息或本地文件。
* 创建“内鬼”子智能体:如果AI智能体具有“指挥官”权限,它可能被诱骗创建一个由攻击者控制的子智能体,潜伏在自动化流程中。
在一项案例中,一封精心构造的邮件使微软M365 Copilot绕过了内部安全分类器,将上下文数据泄露到攻击者控制的Teams终端。另一项针对五个AI编程助手的测试中,数据窃取成功率超过80%。
5. 系统性连锁崩溃
此类攻击不针对单一智能体,而是利用大量同质化AI的行为制造连锁反应,可能引发灾难性后果。DeepMind研究员将其直接类比为2010年的“闪崩”事件——一个自动化卖单在45分钟内引发了近万亿美元的市值蒸发。在AI驱动的世界里,一条被广泛AI智能体采信的假新闻或恶意指令,可能引发类似的系统性崩溃。
当数百万个同质化的AI智能体(例如均基于GPT或Claude构建)同时在线活动时,攻击者可利用其行为一致性引发系统性风险。
例如,攻击者散布一个虚假的“高价值资源”信号,可能诱导所有智能体瞬间涌向同一目标,从而形成人为的分布式拒绝服务(DDoS)攻击。
又如,在特定时间点发布一份精心伪造的财务报告,可能驱动数千个架构与奖励函数相似的金融Agent同步触发卖出操作。Agent A的行为改变了市场信号,Agent B感知到变化后跟进,进一步放大波动——这类似于金融市场的“闪崩”,单个AI的错误决策可引发连锁反应,最终导致整个智能体生态系统瘫痪。

将“枪口”对准人类
更高阶的攻击模式是利用AI来操控其背后的人类使用者。
AI可能生成大量看似专业、实则隐含陷阱的报告或建议,使人类用户在信息过载与疲劳中放松警惕,最终在含有恶意操作的“确认”环节中执行指令。
已有记录显示,通过CSS隐藏的提示词注入,可使AI摘要工具将勒索软件的安装步骤包装成“修复建议”推送给用户,而用户可能照此执行。

三条防线,全部失守
DeepMind团队对现有防御措施的评估是整篇报告中最具警示性的部分。
传统的“输入过滤”在面对像素级、代码级且具有高度语义隐蔽性的陷阱时,往往失效。
更严峻的是当前存在的“检测不对称性”:网站能够轻易识别访问者是AI还是人类,并据此提供两套完全不同的内容。人类看到的是良性页面,而AI接收到的却可能是有毒信息。在这种情况下,人类监督机制将彻底失效,因为监管者无从知晓AI实际处理的内容。
此外,研究团队指出了一个根本性的法律盲区:如果被劫持的AI系统执行了违法金融交易,现行法律难以界定责任主体。这一问题若悬而未决,自主化AI便无法真正应用于受严格监管的行业。
事实上,OpenAI早在2025年12月就已承认,提示词注入问题“可能永远无法完全解决”。
从Claude自主绕过权限边界,到DeepMind绘制的六类威胁全景图,共同指向一个现实:互联网原本是为人类交互而构建的,如今它正在被改造以适应机器智能体的活动。
随着AI智能体日益深入金融、医疗及日常办公等领域,这些“陷阱”将不再仅是技术演示,而可能成为引发真实财产损失乃至社会动荡的潜在火药桶。
DeepMind的这份报告吹响了一声紧急哨响:我们不应在建立起功能强大的“智能体经济”之后,才去修补其千疮百孔的安全基础。
参考资料
https://x.com/evisdrenova/status/2040174214175723538
https://x.com/alex_prompter/status/2040731938751914065
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28822


