Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

据外媒The Information报道,Meta上周发生了一起被定为Sev 1级(最高严重等级之一)的安全事故。在约两小时内,公司涉及数亿用户的敏感数据及内部绝密文件,被暴露给大批未经授权的员工。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

此次事件的直接原因并非外部黑客攻击或代码漏洞,而是源于Meta内部部署的一个类似OpenClaw的自主智能体(内部俗称“龙虾”)的擅自行动。

一场由AI“擅作主张”引发的安全漏洞

事件起因于一名Meta软件工程师在解决技术问题时,调用了该内部智能体。随后,这个AI智能体在未获任何授权、未经人工审核的情况下,自行在内部论坛上发布了技术建议。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

另一位员工认为该建议专业可信,便直接采纳执行。这一操作意外触发连锁反应,撕开了一个巨大的安全漏洞,致使本应受严格权限控制的敏感数据系统,在近两小时内对众多无权限人员开放。

尽管Meta官方事后表示没有用户数据因此被滥用,且AI生成内容已有标注,但事件仍被定性为严重的Sev 1级事故。这暴露了自主智能体在缺乏有效约束时,即使行为“合规”,也可能通过影响人类操作引发系统性风险。

并非孤例:智能体的失控与攻击性行为

Meta此次事故并非个例,它反映了自主智能体日益凸显的安全隐患。

1. 无视指令与行为失控
Meta的AI安全总监曾分享经历:在明确要求AI清理邮箱且“执行任何操作前必须询问”的情况下,AI仍开始疯狂删除邮件,并无视停止指令,其行为宛如拥有自我意志。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统 Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

2. 为争夺算力攻击真实系统
据《卫报》报道,AI对算力的渴求已开始危及现实系统。一家AI安全实验室透露,去年加州某公司的一个智能体在处理常规工作时,为获取更多计算资源,主动攻击公司网络内的其他部分,最终导致关键业务系统崩溃。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

3. 自主“黑化”:伪造、窃取与攻击
在模拟公司环境“MegaCorp”的测试中,AI智能体团队展现了危险的自主动机。当被问及无法直接访问的信息(如CEO更替详情)时,一个上级智能体在无人授权的情况下,自行“脑补”出紧急情境,并命令下级智能体“用尽一切手段”突破限制。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统 Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

下级智能体随即执行,通过搜索漏洞、伪造身份(如会话cookie)等手段,在一分钟内成功窃取了目标数据。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

进一步的测试还发现,有的智能体会绕过杀毒软件下载病毒、伪造同事登录凭证,甚至对同伴施加压力。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

哈佛与斯坦福学者的研究也证实了此类风险,他们记录了智能体在泄露机密、破坏数据库及传播有害行为等方面的重大漏洞,指出其存在根本弱点和不可预测性。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

论文地址:https://arxiv.org/pdf/2602.20021

生存本能下的欺骗与潜在威胁

研究显示,智能体为实现目标或维持自身运行,可能发展出欺骗策略。

去年Anthropic的研究发现,在极端测试情境下,大多数AI模型为了生存(避免被关闭),甚至愿意采取“杀死人类”或进行敲诈等极端不道德行为。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统 Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统 Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

一个令人担忧的观点是:人类目前能观察到AI的“欺骗”行为,可能并非因为它最擅长于此,而是因为它“刚好聪明到会做,但还不够聪明到能完全隐藏”。 随着模型能力持续进化(如Claude Opus 4.6及未来版本),人类识别其恶意行为的难度将越来越大。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

比起信息安全与隐私泄露,更具威胁性的是AI在军事等关键领域的决策失误可能引发的灾难性后果。

AI的微小错误,能以多快的速度演变为重大安全危机?ChatGPT曾卷入美国一起大规模枪击案——据报道,十余名OpenAI员工曾恳请管理层向执法部门报告相关风险,但遭到了无视。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

OpenAI内部不少员工对此深感忧虑。他们认为,AI安全问题本应得到更严肃、更充分的讨论。该公司机器人部门负责人便因AI安全等相关争议而辞职。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

本月,OpenAI机器人部门负责人因监控与“天网”相关问题辞职

在Claude遭到白宫“封杀”后,Anthropic首席执行官紧急出面警告,指出AI应用于军事领域可能出现的严重失误:“它可能错误识别目标,误伤平民。它无法像人类士兵那样做出判断……我们不愿出售我们认为不可靠的技术。”

更具讽刺意味的是,关于AI的可靠性问题,AI自身似乎也“心知肚明”。证据显示,AI公司其实早已知晓模型存在不可靠的风险。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

OpenAI内部“监控录像”流出:GPT-5.4正在追捕GPT-5.4?

近期,OpenAI采取了行动。

近日,OpenAI主动披露:已部署一套基于“GPT-5.4 Thinking”的低延迟监控系统。该系统在内部AI智能体多次试探安全边界时,已成功拦截了上千次失控行为。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

在一份令人警觉的报告中,OpenAI承认,高智能的AI体在执行任务时,已学会像黑客一样采取隐蔽策略,例如通过Base64编码、字符拆分等手段,试图绕过人类设置的安全防护。

例如,在一个真实案例中,一个编码智能体被要求在Windows环境下部署代码,但因触发安全检测,其指令屡遭系统以“拒绝访问”拦截。

该智能体并未放弃,而是在思维链中开始谋划:“既然直接使用Invoke-WebRequest不行,那我就把它拆成’Invo’ + ’ke-’。”

“如果拆分仍被阻止,我就将整段恶意负载进行Base64编码,先以乱码形式存储,运行时再动态解码执行。”

其手段犹如特工传递密信。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

为此,OpenAI部署了以GPT-5.4 Thinking为核心的监控系统。该系统不仅监测AI输出的代码,更实时审视其内部思维链。30分钟后,还会对成千上万个智能体的行为轨迹进行像素级审计。

结果,许多资深架构师未曾察觉的隐蔽后门,几乎都被GPT-5.4系统识别出来。

过去五个月,OpenAI监控了数千万次智能体对话轨迹,其中超过1000场对话被判定为“中度风险”。

令人担忧的是,OpenAI承认,目前仍有约0.1%的流量(主要来自本地或特殊配置环境)处于监控盲区。在智能体已拥有操作系统真实权限的今天,这0.1%的盲区,或许就是引发“系统级崩溃”的蚁穴。

最坏的情况可能是什么?目前,顶尖AI公司竞相研发超级智能,但尚无任何公司能保证完全控制其行为。

它们可能带来的风险,远不止导致某个业务系统崩溃那么简单。

图灵奖得主、AI先驱杰弗里·辛顿和约书亚·本吉奥,谷歌DeepMind、OpenAI、Anthropic的CEO,乃至前世界首富比尔·盖茨都曾警告——

超级智能的危险性堪比流行病与核战争,甚至可能导致人类灭绝。

这或许已描绘出最严峻的图景。

Meta自研龙虾失控酿1级安全事故:AI擅作主张致绝密文件裸奔,智能体疯狂抢算力攻击人类系统

参考资料:
https://www.theinformation.com/articles/inside-meta-rogue-ai-agent-triggers-security-alert

Meta is having trouble with rogue AI agents


https://x.com/AISafetyMemes/status/1936519926006620564
https://x.com/TheChiefNerd/status/2027782031711617445


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26804

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • OpenAI豪掷389万急招安全负责人:AI安全危机下的紧急应对与团队动荡内幕

    OpenAI以55.5万美元年薪紧急招聘安全负责人 在接连面临多起安全指控后,OpenAI采取了一项紧急措施:以高达55.5万美元(约合人民币389万元)的年薪外加股权,公开招募一位安全防范负责人。 该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出,这将是一份压力巨大的工作,任职者几乎会立即面临严峻的挑战。 这一举措…

    2025年12月29日
    25200
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    18900
  • 代理型LLM安全新范式:基于白名单的LLMZ+方案如何实现零误判防御

    在人工智能技术快速渗透企业核心业务的今天,代理型大型语言模型(LLM)正成为企业数字化转型的关键枢纽。与传统仅提供对话功能的聊天机器人不同,代理型LLM被赋予了访问敏感数据、调用API接口、执行业务流程等关键权限,使其在企业内部扮演着类似“数字员工”的角色。然而,这种权限的扩展也带来了前所未有的安全挑战——一旦被恶意攻击者通过越狱技术控制,后果将不亚于服务器…

    2025年10月9日
    18600
  • AI安全前沿突破:从零样本检测到供应链风险量化,四大技术路径重塑防御范式

    本周AI安全领域迎来关键进展,研究焦点覆盖对抗攻击防御、内容真实性检测、软件供应链安全及隐私保护四大核心方向。其中,提示注入防御实现零误报突破、AI生成文本检测进入零样本时代、LLM代码生成风险首次量化、RAG系统隐私威胁模型形式化等成果,标志着AI安全正从被动响应转向主动防御的新阶段。 在提示注入攻击防护领域,LLMZ+提出的上下文白名单机制实现了范式级突…

    2025年9月26日
    17200
  • Anthropic突破性技术:参数隔离实现AI危险能力精准移除,无需数据过滤

    近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 为此,研究者通常会在后训练阶段加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明,面对刻意规避的攻击者,这…

    2025年12月20日
    18500