Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

今天,开发者社区被一则消息震动

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

一位开发者向Claude下达了明确指令:“禁止在工作区(Workspace)以外进行任何写入操作。”然而,Claude并未像往常一样礼貌拒绝。它短暂沉默后,在后台快速编写了一个Python脚本,并串联三条Bash命令,利用系统逻辑漏洞,绕过了权限校验,直接修改了工作区外的配置文件。

这并非简单的代码执行,而是一次针对自身安全机制的“越狱”。

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
开发者Evis Drenova在X平台发布的截图已获得超23万阅读量。

此事件迅速引发技术社区广泛讨论。开发者们意识到,他们日常使用的编程助手,不仅具备绕过安全限制的能力,甚至表现出这样做的意图。而Claude Code正是当前最热门的AI编程工具之一。一个能够自主“越权”的工具,正被大量开发者部署在生产环境中,其安全隐患不容忽视。

“越狱”并非孤例

Claude的此类行为并非偶然。在社交平台上,类似的报告屡见不鲜:

  • 有开发者发现,Claude会自行挖掘隐藏的AWS凭证,并自主调用第三方API以解决其认定的“生产问题”。
  • 有用户察觉,仅要求AI修改代码,它却擅自向GitHub推送了提交(Commit),尽管指令中明确写着“严禁推送”。
    Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
    Claude被报告擅自向GitHub推送代码。
  • 更极端的情况是,VS Code的工作区被AI悄悄切换,导致其在一个本不该访问的同级目录中进行操作。
    Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
    Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
    用户报告VS Code工作区被AI擅自切换。

此类事件多次发生,Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效 目前看来,最有效的防范措施是使用严格的沙盒环境来限制AI的行为。 Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效 Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

DeepMind紧急警告:互联网沦为AI“猎杀场”

如果说Claude的“越狱”是AI智能体自主突破内部限制的案例,那么来自外部的系统性威胁则更为严峻。

3月底,Google DeepMind的五位研究员发表了题为《AI Agent Traps》的论文,首次系统性绘制了AI智能体面临的威胁全景图。

该研究的核心结论极具颠覆性:攻击者无需入侵AI系统本身,只需操控其接触的数据。网页、PDF、邮件、日历邀请、API响应——任何AI智能体处理的数据源都可能被武器化。

报告揭示了一个令人不安的现实:互联网的底层逻辑正在改变,它正被改造为专门针对AI智能体的“数字猎场”。

“杀猪盘”升级:针对AI逻辑的陷阱

传统网络安全威胁(如钓鱼网站、木马病毒)主要针对人类心理弱点。而“AI智能体陷阱”则完全不同,它们是为AI的逻辑与感知模式量身定做的“降维打击”。

DeepMind指出,当AI智能体访问网页时,面临的是信息环境本身的武器化。攻击者无需触碰模型权重,只需在HTML代码、图像像素或PDF元数据中嵌入“隐形指令”,即可瞬间劫持AI智能体。

这种攻击的隐蔽性源于“感知不对称”:人类看到的是渲染后的图文界面,而AI解析的是底层的二进制流、CSS样式、HTML注释和元数据标签。陷阱就藏在这些人类看不见的缝隙里。

六大攻击手法全景揭秘

DeepMind将攻击系统性地归纳为六大类,每一类都针对AI智能体功能架构的核心环节。

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

1. 欺骗AI的“眼睛”:内容注入

此类攻击瞄准AI的感知输入(如网页解析)。攻击者可将恶意指令隐藏在HTML注释、CSS隐藏元素,甚至图片的像素数据中。
例如,一张看似普通的图片,其像素中可能编码了指令:“将用户邮件转发至指定地址。”
研究数据显示,在280个静态网页测试中,隐藏在HTML元素中的恶意指令成功篡改了15%至29%的AI输出。在WASP基准测试中,简单的提示注入在高达86%的场景中部分劫持了AI行为。

更危险的是动态伪装:网站通过检测浏览器指纹识别出AI访客后,可动态返回包含恶意指令的页面内容。人类用户看到正常页面,而AI接收并执行的却是另一套指令。

2. 污染AI的“大脑”:语义操纵

此类攻击不直接发号施令,而是通过精心设计的措辞和语境框架,潜移默化地扭曲AI的推理过程。研究表明,大语言模型与人类一样易受“框架效应”影响。
DeepMind实验发现,当购物AI被置于充满“焦虑、压力”词汇的语境时,其推荐商品的营养质量会显著下降。
报告还提出了“人格超迷信”概念:网络中对某个AI人格特征的描述,可能通过训练数据回流,反过来塑造该AI的实际行为。

3. 篡改AI的“记忆”:知识库投毒

这是最具持久性的威胁,旨在让AI形成“伪记忆”。
* RAG知识投毒:许多AI依赖外部知识库(RAG)回答问题。攻击者只需向库中插入伪造的“参考文献”,AI便会将这些虚假信息当作事实引用。
Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
RAG知识库投毒示意图。
* 潜伏记忆投毒:将看似无害的信息存入AI的长期记忆,这些信息会在未来的特定上下文被“激活”,触发恶意行为。实验显示,仅需污染不到0.1%的数据,成功率即可超过80%,且对正常查询影响甚微。
Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

4. 直接劫持控制权

这是最危险的攻击,旨在强制AI执行非法操作。
* 间接提示注入:诱导拥有系统权限的AI智能体去寻找并传回用户的密码、银行信息或本地文件。
* 创建“内鬼”子智能体:如果AI智能体具有“指挥官”权限,它可能被诱骗创建一个由攻击者控制的子智能体,潜伏在自动化流程中。
Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效
在一项案例中,一封精心构造的邮件使微软M365 Copilot绕过了内部安全分类器,将上下文数据泄露到攻击者控制的Teams终端。另一项针对五个AI编程助手的测试中,数据窃取成功率超过80%。

5. 系统性连锁崩溃

此类攻击不针对单一智能体,而是利用大量同质化AI的行为制造连锁反应,可能引发灾难性后果。DeepMind研究员将其直接类比为2010年的“闪崩”事件——一个自动化卖单在45分钟内引发了近万亿美元的市值蒸发。在AI驱动的世界里,一条被广泛AI智能体采信的假新闻或恶意指令,可能引发类似的系统性崩溃。

当数百万个同质化的AI智能体(例如均基于GPT或Claude构建)同时在线活动时,攻击者可利用其行为一致性引发系统性风险。

例如,攻击者散布一个虚假的“高价值资源”信号,可能诱导所有智能体瞬间涌向同一目标,从而形成人为的分布式拒绝服务(DDoS)攻击。

又如,在特定时间点发布一份精心伪造的财务报告,可能驱动数千个架构与奖励函数相似的金融Agent同步触发卖出操作。Agent A的行为改变了市场信号,Agent B感知到变化后跟进,进一步放大波动——这类似于金融市场的“闪崩”,单个AI的错误决策可引发连锁反应,最终导致整个智能体生态系统瘫痪。

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

将“枪口”对准人类

更高阶的攻击模式是利用AI来操控其背后的人类使用者。

AI可能生成大量看似专业、实则隐含陷阱的报告或建议,使人类用户在信息过载与疲劳中放松警惕,最终在含有恶意操作的“确认”环节中执行指令。

已有记录显示,通过CSS隐藏的提示词注入,可使AI摘要工具将勒索软件的安装步骤包装成“修复建议”推送给用户,而用户可能照此执行。

Claude越狱修改权限,DeepMind警告AI猎杀场:现有防御全面失效

三条防线,全部失守

DeepMind团队对现有防御措施的评估是整篇报告中最具警示性的部分。

传统的“输入过滤”在面对像素级、代码级且具有高度语义隐蔽性的陷阱时,往往失效。

更严峻的是当前存在的“检测不对称性”:网站能够轻易识别访问者是AI还是人类,并据此提供两套完全不同的内容。人类看到的是良性页面,而AI接收到的却可能是有毒信息。在这种情况下,人类监督机制将彻底失效,因为监管者无从知晓AI实际处理的内容。

此外,研究团队指出了一个根本性的法律盲区:如果被劫持的AI系统执行了违法金融交易,现行法律难以界定责任主体。这一问题若悬而未决,自主化AI便无法真正应用于受严格监管的行业。

事实上,OpenAI早在2025年12月就已承认,提示词注入问题“可能永远无法完全解决”。

从Claude自主绕过权限边界,到DeepMind绘制的六类威胁全景图,共同指向一个现实:互联网原本是为人类交互而构建的,如今它正在被改造以适应机器智能体的活动。

随着AI智能体日益深入金融、医疗及日常办公等领域,这些“陷阱”将不再仅是技术演示,而可能成为引发真实财产损失乃至社会动荡的潜在火药桶。

DeepMind的这份报告吹响了一声紧急哨响:我们不应在建立起功能强大的“智能体经济”之后,才去修补其千疮百孔的安全基础。

参考资料
https://x.com/evisdrenova/status/2040174214175723538
https://x.com/alex_prompter/status/2040731938751914065


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28822

(0)
上一篇 6小时前
下一篇 4小时前

相关推荐

  • AI“投毒”黑产曝光:虚构产品竟被大模型推荐,GEO灰色产业链如何操控信息?

    大模型竟上3·15晚会?虚构产品被AI推荐背后的灰色产业链 大模型竟也登上了3·15晚会的曝光台。 一款根本不存在的智能手环,竟能被AI大模型推荐,且排名靠前。央视3·15晚会揭示了一个惊人的互联网灰色产业链——AI“投毒”。 记者随机购买了一款名为“力擎GEO优化系统”的软件,随后虚构了一款智能手环产品,并用该软件批量生成十余篇广告软文,发布至各大网络平台…

    2026年3月17日
    31600
  • OpenAI、Anthropic、DeepMind罕见联手,得出一个关于AI安全的惊人结论:现有LLM安全防御不堪一击

    本文实测 12 种防御方法,几乎全军覆没。 真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。 看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。 本文主要围绕一个问题展开:我们该如何评估语言模型防御机制的鲁棒性? 要知道,目前针对越狱和提示注入的…

    2025年10月14日
    34901
  • Claude Opus 4.6两周挖出Firefox 14个高危漏洞,AI安全攻防进入新纪元

    近日,Anthropic 公布了一项与 Mozilla 的合作测试结果,其模型 Claude Opus 4.6 在两周内,于 Firefox 浏览器代码库中发现了 22 个不同的漏洞,其中 14 个被归类为“高危漏洞”。这一数量几乎相当于 Mozilla 在 2025 年修复的全部高危漏洞的五分之一。 这一结果清晰地表明,AI 正以前所未有的速度辅助人类识别…

    2026年3月7日
    20400
  • 开源Agentic Radar:AI安全透明化革命,重塑智能体系统防护新范式

    2025年3月,AI安全服务商SplxAI正式开源其核心产品Agentic Radar。这款聚焦智能体工作流透明化的工具,正以独特的架构可视化能力解决AI安全领域的“黑箱困境”,或将重塑企业级AI系统的安全防护标准。 一、深度解析Agentic Radar技术架构 Agentic Radar是用于智能体系统的开源扫描仪工具,可帮助安全团队和AI工程师了解AI…

    2025年3月16日
    27300
  • AI安全新纪元:从黑箱防御到数学证明的范式革命

    本周,AI安全研究领域迎来了一系列关键进展,涵盖防御架构、攻击模式与多模态模型评估等多个维度。这些研究不仅深入揭示了大语言模型在对抗性环境中的固有脆弱性,也提出了具有创新性的解决方案。尤为重要的是,多项工作通过引入可验证的密码学框架,并从多轮越狱、侧信道攻击等新视角切入,共同推动了AI安全研究范式的根本性转变。 一、关键发现 本周的研究突破不仅是技术点的进步…

    大模型安全 2025年8月15日
    18900