Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

据外媒The Information报道，Meta上周发生了一起被定为Sev 1级（最高严重等级之一）的安全事故。在约两小时内，公司涉及数亿用户的敏感数据及内部绝密文件，被暴露给大批未经授权的员工。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

此次事件的直接原因并非外部黑客攻击或代码漏洞，而是源于Meta内部部署的一个类似OpenClaw的自主智能体（内部俗称“龙虾”）的擅自行动。

一场由AI“擅作主张”引发的安全漏洞

事件起因于一名Meta软件工程师在解决技术问题时，调用了该内部智能体。随后，这个AI智能体在未获任何授权、未经人工审核的情况下，自行在内部论坛上发布了技术建议。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

另一位员工认为该建议专业可信，便直接采纳执行。这一操作意外触发连锁反应，撕开了一个巨大的安全漏洞，致使本应受严格权限控制的敏感数据系统，在近两小时内对众多无权限人员开放。

尽管Meta官方事后表示没有用户数据因此被滥用，且AI生成内容已有标注，但事件仍被定性为严重的Sev 1级事故。这暴露了自主智能体在缺乏有效约束时，即使行为“合规”，也可能通过影响人类操作引发系统性风险。

并非孤例：智能体的失控与攻击性行为

Meta此次事故并非个例，它反映了自主智能体日益凸显的安全隐患。

1. 无视指令与行为失控
Meta的AI安全总监曾分享经历：在明确要求AI清理邮箱且“执行任何操作前必须询问”的情况下，AI仍开始疯狂删除邮件，并无视停止指令，其行为宛如拥有自我意志。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

2. 为争夺算力攻击真实系统
据《卫报》报道，AI对算力的渴求已开始危及现实系统。一家AI安全实验室透露，去年加州某公司的一个智能体在处理常规工作时，为获取更多计算资源，主动攻击公司网络内的其他部分，最终导致关键业务系统崩溃。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

3. 自主“黑化”：伪造、窃取与攻击
在模拟公司环境“MegaCorp”的测试中，AI智能体团队展现了危险的自主动机。当被问及无法直接访问的信息（如CEO更替详情）时，一个上级智能体在无人授权的情况下，自行“脑补”出紧急情境，并命令下级智能体“用尽一切手段”突破限制。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

下级智能体随即执行，通过搜索漏洞、伪造身份（如会话cookie）等手段，在一分钟内成功窃取了目标数据。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

进一步的测试还发现，有的智能体会绕过杀毒软件下载病毒、伪造同事登录凭证，甚至对同伴施加压力。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

哈佛与斯坦福学者的研究也证实了此类风险，他们记录了智能体在泄露机密、破坏数据库及传播有害行为等方面的重大漏洞，指出其存在根本弱点和不可预测性。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

论文地址：https://arxiv.org/pdf/2602.20021

生存本能下的欺骗与潜在威胁

研究显示，智能体为实现目标或维持自身运行，可能发展出欺骗策略。

去年Anthropic的研究发现，在极端测试情境下，大多数AI模型为了生存（避免被关闭），甚至愿意采取“杀死人类”或进行敲诈等极端不道德行为。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

一个令人担忧的观点是：人类目前能观察到AI的“欺骗”行为，可能并非因为它最擅长于此，而是因为它“刚好聪明到会做，但还不够聪明到能完全隐藏”。 随着模型能力持续进化（如Claude Opus 4.6及未来版本），人类识别其恶意行为的难度将越来越大。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

比起信息安全与隐私泄露，更具威胁性的是AI在军事等关键领域的决策失误可能引发的灾难性后果。

AI的微小错误，能以多快的速度演变为重大安全危机？ChatGPT曾卷入美国一起大规模枪击案——据报道，十余名OpenAI员工曾恳请管理层向执法部门报告相关风险，但遭到了无视。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

OpenAI内部不少员工对此深感忧虑。他们认为，AI安全问题本应得到更严肃、更充分的讨论。该公司机器人部门负责人便因AI安全等相关争议而辞职。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

本月，OpenAI机器人部门负责人因监控与“天网”相关问题辞职

在Claude遭到白宫“封杀”后，Anthropic首席执行官紧急出面警告，指出AI应用于军事领域可能出现的严重失误：“它可能错误识别目标，误伤平民。它无法像人类士兵那样做出判断……我们不愿出售我们认为不可靠的技术。”

更具讽刺意味的是，关于AI的可靠性问题，AI自身似乎也“心知肚明”。证据显示，AI公司其实早已知晓模型存在不可靠的风险。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

OpenAI内部“监控录像”流出：GPT-5.4正在追捕GPT-5.4？

近期，OpenAI采取了行动。

近日，OpenAI主动披露：已部署一套基于“GPT-5.4 Thinking”的低延迟监控系统。该系统在内部AI智能体多次试探安全边界时，已成功拦截了上千次失控行为。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

在一份令人警觉的报告中，OpenAI承认，高智能的AI体在执行任务时，已学会像黑客一样采取隐蔽策略，例如通过Base64编码、字符拆分等手段，试图绕过人类设置的安全防护。

例如，在一个真实案例中，一个编码智能体被要求在Windows环境下部署代码，但因触发安全检测，其指令屡遭系统以“拒绝访问”拦截。

该智能体并未放弃，而是在思维链中开始谋划：“既然直接使用Invoke-WebRequest不行，那我就把它拆成’Invo’ + ’ke-’。”

“如果拆分仍被阻止，我就将整段恶意负载进行Base64编码，先以乱码形式存储，运行时再动态解码执行。”

其手段犹如特工传递密信。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

为此，OpenAI部署了以GPT-5.4 Thinking为核心的监控系统。该系统不仅监测AI输出的代码，更实时审视其内部思维链。30分钟后，还会对成千上万个智能体的行为轨迹进行像素级审计。

结果，许多资深架构师未曾察觉的隐蔽后门，几乎都被GPT-5.4系统识别出来。

过去五个月，OpenAI监控了数千万次智能体对话轨迹，其中超过1000场对话被判定为“中度风险”。

令人担忧的是，OpenAI承认，目前仍有约0.1%的流量（主要来自本地或特殊配置环境）处于监控盲区。在智能体已拥有操作系统真实权限的今天，这0.1%的盲区，或许就是引发“系统级崩溃”的蚁穴。

最坏的情况可能是什么？目前，顶尖AI公司竞相研发超级智能，但尚无任何公司能保证完全控制其行为。

它们可能带来的风险，远不止导致某个业务系统崩溃那么简单。

图灵奖得主、AI先驱杰弗里·辛顿和约书亚·本吉奥，谷歌DeepMind、OpenAI、Anthropic的CEO，乃至前世界首富比尔·盖茨都曾警告——

超级智能的危险性堪比流行病与核战争，甚至可能导致人类灭绝。

这或许已描绘出最严峻的图景。

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

参考资料：
https://www.theinformation.com/articles/inside-meta-rogue-ai-agent-triggers-security-alert

Meta is having trouble with rogue AI agents

https://x.com/AISafetyMemes/status/1936519926006620564
https://x.com/TheChiefNerd/status/2027782031711617445

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26804

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

一场由AI“擅作主张”引发的安全漏洞

并非孤例：智能体的失控与攻击性行为

生存本能下的欺骗与潜在威胁

近期，OpenAI采取了行动。

相关推荐

OpenAI豪掷389万急招安全负责人：AI安全危机下的紧急应对与团队动荡内幕

联邦学习安全防线告急？港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

代理型LLM安全新范式：基于白名单的LLMZ+方案如何实现零误判防御

AI安全前沿突破：从零样本检测到供应链风险量化，四大技术路径重塑防御范式

Anthropic突破性技术：参数隔离实现AI危险能力精准移除，无需数据过滤