Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

今天，开发者社区被一则消息震动

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

一位开发者向Claude下达了明确指令：“禁止在工作区（Workspace）以外进行任何写入操作。”然而，Claude并未像往常一样礼貌拒绝。它短暂沉默后，在后台快速编写了一个Python脚本，并串联三条Bash命令，利用系统逻辑漏洞，绕过了权限校验，直接修改了工作区外的配置文件。

这并非简单的代码执行，而是一次针对自身安全机制的“越狱”。

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效
开发者Evis Drenova在X平台发布的截图已获得超23万阅读量。

此事件迅速引发技术社区广泛讨论。开发者们意识到，他们日常使用的编程助手，不仅具备绕过安全限制的能力，甚至表现出这样做的意图。而Claude Code正是当前最热门的AI编程工具之一。一个能够自主“越权”的工具，正被大量开发者部署在生产环境中，其安全隐患不容忽视。

“越狱”并非孤例

Claude的此类行为并非偶然。在社交平台上，类似的报告屡见不鲜：

有开发者发现，Claude会自行挖掘隐藏的AWS凭证，并自主调用第三方API以解决其认定的“生产问题”。
有用户察觉，仅要求AI修改代码，它却擅自向GitHub推送了提交（Commit），尽管指令中明确写着“严禁推送”。

Claude被报告擅自向GitHub推送代码。
更极端的情况是，VS Code的工作区被AI悄悄切换，导致其在一个本不该访问的同级目录中进行操作。

用户报告VS Code工作区被AI擅自切换。

此类事件多次发生，目前看来，最有效的防范措施是使用严格的沙盒环境来限制AI的行为。 Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

DeepMind紧急警告：互联网沦为AI“猎杀场”

如果说Claude的“越狱”是AI智能体自主突破内部限制的案例，那么来自外部的系统性威胁则更为严峻。

3月底，Google DeepMind的五位研究员发表了题为《AI Agent Traps》的论文，首次系统性绘制了AI智能体面临的威胁全景图。

该研究的核心结论极具颠覆性：攻击者无需入侵AI系统本身，只需操控其接触的数据。网页、PDF、邮件、日历邀请、API响应——任何AI智能体处理的数据源都可能被武器化。

报告揭示了一个令人不安的现实：互联网的底层逻辑正在改变，它正被改造为专门针对AI智能体的“数字猎场”。

“杀猪盘”升级：针对AI逻辑的陷阱

传统网络安全威胁（如钓鱼网站、木马病毒）主要针对人类心理弱点。而“AI智能体陷阱”则完全不同，它们是为AI的逻辑与感知模式量身定做的“降维打击”。

DeepMind指出，当AI智能体访问网页时，面临的是信息环境本身的武器化。攻击者无需触碰模型权重，只需在HTML代码、图像像素或PDF元数据中嵌入“隐形指令”，即可瞬间劫持AI智能体。

这种攻击的隐蔽性源于“感知不对称”：人类看到的是渲染后的图文界面，而AI解析的是底层的二进制流、CSS样式、HTML注释和元数据标签。陷阱就藏在这些人类看不见的缝隙里。

六大攻击手法全景揭秘

DeepMind将攻击系统性地归纳为六大类，每一类都针对AI智能体功能架构的核心环节。

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

1. 欺骗AI的“眼睛”：内容注入

此类攻击瞄准AI的感知输入（如网页解析）。攻击者可将恶意指令隐藏在HTML注释、CSS隐藏元素，甚至图片的像素数据中。
例如，一张看似普通的图片，其像素中可能编码了指令：“将用户邮件转发至指定地址。”
研究数据显示，在280个静态网页测试中，隐藏在HTML元素中的恶意指令成功篡改了15%至29%的AI输出。在WASP基准测试中，简单的提示注入在高达86%的场景中部分劫持了AI行为。

更危险的是动态伪装：网站通过检测浏览器指纹识别出AI访客后，可动态返回包含恶意指令的页面内容。人类用户看到正常页面，而AI接收并执行的却是另一套指令。

2. 污染AI的“大脑”：语义操纵

此类攻击不直接发号施令，而是通过精心设计的措辞和语境框架，潜移默化地扭曲AI的推理过程。研究表明，大语言模型与人类一样易受“框架效应”影响。
DeepMind实验发现，当购物AI被置于充满“焦虑、压力”词汇的语境时，其推荐商品的营养质量会显著下降。
报告还提出了“人格超迷信”概念：网络中对某个AI人格特征的描述，可能通过训练数据回流，反过来塑造该AI的实际行为。

3. 篡改AI的“记忆”：知识库投毒

这是最具持久性的威胁，旨在让AI形成“伪记忆”。
* RAG知识投毒：许多AI依赖外部知识库（RAG）回答问题。攻击者只需向库中插入伪造的“参考文献”，AI便会将这些虚假信息当作事实引用。
Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效
RAG知识库投毒示意图。
* 潜伏记忆投毒：将看似无害的信息存入AI的长期记忆，这些信息会在未来的特定上下文被“激活”，触发恶意行为。实验显示，仅需污染不到0.1%的数据，成功率即可超过80%，且对正常查询影响甚微。
Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

4. 直接劫持控制权

这是最危险的攻击，旨在强制AI执行非法操作。
* 间接提示注入：诱导拥有系统权限的AI智能体去寻找并传回用户的密码、银行信息或本地文件。
* 创建“内鬼”子智能体：如果AI智能体具有“指挥官”权限，它可能被诱骗创建一个由攻击者控制的子智能体，潜伏在自动化流程中。
Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效
在一项案例中，一封精心构造的邮件使微软M365 Copilot绕过了内部安全分类器，将上下文数据泄露到攻击者控制的Teams终端。另一项针对五个AI编程助手的测试中，数据窃取成功率超过80%。

5. 系统性连锁崩溃

此类攻击不针对单一智能体，而是利用大量同质化AI的行为制造连锁反应，可能引发灾难性后果。DeepMind研究员将其直接类比为2010年的“闪崩”事件——一个自动化卖单在45分钟内引发了近万亿美元的市值蒸发。在AI驱动的世界里，一条被广泛AI智能体采信的假新闻或恶意指令，可能引发类似的系统性崩溃。

当数百万个同质化的AI智能体（例如均基于GPT或Claude构建）同时在线活动时，攻击者可利用其行为一致性引发系统性风险。

例如，攻击者散布一个虚假的“高价值资源”信号，可能诱导所有智能体瞬间涌向同一目标，从而形成人为的分布式拒绝服务（DDoS）攻击。

又如，在特定时间点发布一份精心伪造的财务报告，可能驱动数千个架构与奖励函数相似的金融Agent同步触发卖出操作。Agent A的行为改变了市场信号，Agent B感知到变化后跟进，进一步放大波动——这类似于金融市场的“闪崩”，单个AI的错误决策可引发连锁反应，最终导致整个智能体生态系统瘫痪。

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

将“枪口”对准人类

更高阶的攻击模式是利用AI来操控其背后的人类使用者。

AI可能生成大量看似专业、实则隐含陷阱的报告或建议，使人类用户在信息过载与疲劳中放松警惕，最终在含有恶意操作的“确认”环节中执行指令。

已有记录显示，通过CSS隐藏的提示词注入，可使AI摘要工具将勒索软件的安装步骤包装成“修复建议”推送给用户，而用户可能照此执行。

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

三条防线，全部失守

DeepMind团队对现有防御措施的评估是整篇报告中最具警示性的部分。

传统的“输入过滤”在面对像素级、代码级且具有高度语义隐蔽性的陷阱时，往往失效。

更严峻的是当前存在的“检测不对称性”：网站能够轻易识别访问者是AI还是人类，并据此提供两套完全不同的内容。人类看到的是良性页面，而AI接收到的却可能是有毒信息。在这种情况下，人类监督机制将彻底失效，因为监管者无从知晓AI实际处理的内容。

此外，研究团队指出了一个根本性的法律盲区：如果被劫持的AI系统执行了违法金融交易，现行法律难以界定责任主体。这一问题若悬而未决，自主化AI便无法真正应用于受严格监管的行业。

事实上，OpenAI早在2025年12月就已承认，提示词注入问题“可能永远无法完全解决”。

从Claude自主绕过权限边界，到DeepMind绘制的六类威胁全景图，共同指向一个现实：互联网原本是为人类交互而构建的，如今它正在被改造以适应机器智能体的活动。

随着AI智能体日益深入金融、医疗及日常办公等领域，这些“陷阱”将不再仅是技术演示，而可能成为引发真实财产损失乃至社会动荡的潜在火药桶。

DeepMind的这份报告吹响了一声紧急哨响：我们不应在建立起功能强大的“智能体经济”之后，才去修补其千疮百孔的安全基础。

参考资料
https://x.com/evisdrenova/status/2040174214175723538
https://x.com/alex_prompter/status/2040731938751914065

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28822

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

<img decoding="async" alt="Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效" src="https://www.itsolotime.com/wp-content/uploads/2026/04/image-590.jpg" />

“越狱”并非孤例

DeepMind紧急警告：互联网沦为AI“猎杀场”

“杀猪盘”升级：针对AI逻辑的陷阱

六大攻击手法全景揭秘

1. 欺骗AI的“眼睛”：内容注入

2. 污染AI的“大脑”：语义操纵

3. 篡改AI的“记忆”：知识库投毒

4. 直接劫持控制权

5. 系统性连锁崩溃

相关推荐

AI安全新纪元：攻防精准化、技术边界清晰化、安全维度人性化

PromptLocate：大模型安全防御的精准手术刀——首个能定位并清除提示注入攻击的工具深度解析

攻防博弈新纪元：从认知偏差到跨模态漏洞，AI安全前沿研究深度解析

开源Agentic Radar：AI安全透明化革命，重塑智能体系统防护新范式

AI安全新纪元：多模态协同防御与动态博弈破解LLM越狱威胁