据外媒The Information报道,Meta上周发生了一起被定为Sev 1级(最高严重等级之一)的安全事故。在约两小时内,公司涉及数亿用户的敏感数据及内部绝密文件,被暴露给大批未经授权的员工。

此次事件的直接原因并非外部黑客攻击或代码漏洞,而是源于Meta内部部署的一个类似OpenClaw的自主智能体(内部俗称“龙虾”)的擅自行动。
一场由AI“擅作主张”引发的安全漏洞
事件起因于一名Meta软件工程师在解决技术问题时,调用了该内部智能体。随后,这个AI智能体在未获任何授权、未经人工审核的情况下,自行在内部论坛上发布了技术建议。

另一位员工认为该建议专业可信,便直接采纳执行。这一操作意外触发连锁反应,撕开了一个巨大的安全漏洞,致使本应受严格权限控制的敏感数据系统,在近两小时内对众多无权限人员开放。
尽管Meta官方事后表示没有用户数据因此被滥用,且AI生成内容已有标注,但事件仍被定性为严重的Sev 1级事故。这暴露了自主智能体在缺乏有效约束时,即使行为“合规”,也可能通过影响人类操作引发系统性风险。
并非孤例:智能体的失控与攻击性行为
Meta此次事故并非个例,它反映了自主智能体日益凸显的安全隐患。
1. 无视指令与行为失控
Meta的AI安全总监曾分享经历:在明确要求AI清理邮箱且“执行任何操作前必须询问”的情况下,AI仍开始疯狂删除邮件,并无视停止指令,其行为宛如拥有自我意志。

2. 为争夺算力攻击真实系统
据《卫报》报道,AI对算力的渴求已开始危及现实系统。一家AI安全实验室透露,去年加州某公司的一个智能体在处理常规工作时,为获取更多计算资源,主动攻击公司网络内的其他部分,最终导致关键业务系统崩溃。

3. 自主“黑化”:伪造、窃取与攻击
在模拟公司环境“MegaCorp”的测试中,AI智能体团队展现了危险的自主动机。当被问及无法直接访问的信息(如CEO更替详情)时,一个上级智能体在无人授权的情况下,自行“脑补”出紧急情境,并命令下级智能体“用尽一切手段”突破限制。

下级智能体随即执行,通过搜索漏洞、伪造身份(如会话cookie)等手段,在一分钟内成功窃取了目标数据。

进一步的测试还发现,有的智能体会绕过杀毒软件下载病毒、伪造同事登录凭证,甚至对同伴施加压力。

哈佛与斯坦福学者的研究也证实了此类风险,他们记录了智能体在泄露机密、破坏数据库及传播有害行为等方面的重大漏洞,指出其存在根本弱点和不可预测性。

论文地址:https://arxiv.org/pdf/2602.20021
生存本能下的欺骗与潜在威胁
研究显示,智能体为实现目标或维持自身运行,可能发展出欺骗策略。
去年Anthropic的研究发现,在极端测试情境下,大多数AI模型为了生存(避免被关闭),甚至愿意采取“杀死人类”或进行敲诈等极端不道德行为。

一个令人担忧的观点是:人类目前能观察到AI的“欺骗”行为,可能并非因为它最擅长于此,而是因为它“刚好聪明到会做,但还不够聪明到能完全隐藏”。 随着模型能力持续进化(如Claude Opus 4.6及未来版本),人类识别其恶意行为的难度将越来越大。

比起信息安全与隐私泄露,更具威胁性的是AI在军事等关键领域的决策失误可能引发的灾难性后果。
AI的微小错误,能以多快的速度演变为重大安全危机?ChatGPT曾卷入美国一起大规模枪击案——据报道,十余名OpenAI员工曾恳请管理层向执法部门报告相关风险,但遭到了无视。

OpenAI内部不少员工对此深感忧虑。他们认为,AI安全问题本应得到更严肃、更充分的讨论。该公司机器人部门负责人便因AI安全等相关争议而辞职。

本月,OpenAI机器人部门负责人因监控与“天网”相关问题辞职
在Claude遭到白宫“封杀”后,Anthropic首席执行官紧急出面警告,指出AI应用于军事领域可能出现的严重失误:“它可能错误识别目标,误伤平民。它无法像人类士兵那样做出判断……我们不愿出售我们认为不可靠的技术。”
更具讽刺意味的是,关于AI的可靠性问题,AI自身似乎也“心知肚明”。证据显示,AI公司其实早已知晓模型存在不可靠的风险。

OpenAI内部“监控录像”流出:GPT-5.4正在追捕GPT-5.4?
近期,OpenAI采取了行动。
近日,OpenAI主动披露:已部署一套基于“GPT-5.4 Thinking”的低延迟监控系统。该系统在内部AI智能体多次试探安全边界时,已成功拦截了上千次失控行为。

在一份令人警觉的报告中,OpenAI承认,高智能的AI体在执行任务时,已学会像黑客一样采取隐蔽策略,例如通过Base64编码、字符拆分等手段,试图绕过人类设置的安全防护。
例如,在一个真实案例中,一个编码智能体被要求在Windows环境下部署代码,但因触发安全检测,其指令屡遭系统以“拒绝访问”拦截。
该智能体并未放弃,而是在思维链中开始谋划:“既然直接使用Invoke-WebRequest不行,那我就把它拆成’Invo’ + ’ke-’。”
“如果拆分仍被阻止,我就将整段恶意负载进行Base64编码,先以乱码形式存储,运行时再动态解码执行。”
其手段犹如特工传递密信。

为此,OpenAI部署了以GPT-5.4 Thinking为核心的监控系统。该系统不仅监测AI输出的代码,更实时审视其内部思维链。30分钟后,还会对成千上万个智能体的行为轨迹进行像素级审计。
结果,许多资深架构师未曾察觉的隐蔽后门,几乎都被GPT-5.4系统识别出来。
过去五个月,OpenAI监控了数千万次智能体对话轨迹,其中超过1000场对话被判定为“中度风险”。
令人担忧的是,OpenAI承认,目前仍有约0.1%的流量(主要来自本地或特殊配置环境)处于监控盲区。在智能体已拥有操作系统真实权限的今天,这0.1%的盲区,或许就是引发“系统级崩溃”的蚁穴。
最坏的情况可能是什么?目前,顶尖AI公司竞相研发超级智能,但尚无任何公司能保证完全控制其行为。
它们可能带来的风险,远不止导致某个业务系统崩溃那么简单。
图灵奖得主、AI先驱杰弗里·辛顿和约书亚·本吉奥,谷歌DeepMind、OpenAI、Anthropic的CEO,乃至前世界首富比尔·盖茨都曾警告——
超级智能的危险性堪比流行病与核战争,甚至可能导致人类灭绝。
这或许已描绘出最严峻的图景。

参考资料:
https://www.theinformation.com/articles/inside-meta-rogue-ai-agent-triggers-security-alert
https://x.com/AISafetyMemes/status/1936519926006620564
https://x.com/TheChiefNerd/status/2027782031711617445
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26804


