Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

Claude Mythos 预览版发布:AI 安全警钟敲响

就在刚刚,Anthropic 备受瞩目的最强模型——Claude Mythos,发布了其预览版本。

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

这款模型的表现印证了此前的传闻,其性能在多项基准测试中实现了对前代模型 Claude Opus 4.6 的全面超越。

  • SWE-bench Pro:代码错误修复能力提升 24%。
  • SWE-bench Verified:在更严格的验证集上测试,仍有 13% 的性能提升。
  • Terminal-Bench 2.0:计算机操作类智能体能力提升 17%。

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御
Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

然而,Anthropic 此次的关注焦点并非性能炫耀。官方博客的字里行间,流露出一种不同寻常的“担忧”。

因为这款强大的“神话”模型,被发现存在一个致命的“缺陷”:其发现和利用安全漏洞的能力,已经超越了绝大多数人类黑客。

Mythos 预览版已经发现了数千个高危漏洞,各大主流操作系统和浏览器无一幸免。

Anthropic 指出,随着 AI 编程能力的飞速进化,其攻击性的一面也在同步野蛮生长。目前,仅有最顶尖的一小撮安全专家还能与之抗衡。

为了应对这一迫在眉睫的威胁,Anthropic 做出了一个非常规决定:暂不向公众开放 Claude Mythos。相反,它将作为 玻璃翼计划 的一部分,先行提供给选定的合作伙伴。

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

玻璃翼计划:全球防御启动

这是一场规模空前的安全协作。为了在“猛兽”完全出笼前建立起防护栏,Anthropic 联合了 Amazon、Apple、Google、Linux Foundation、Microsoft、NVIDIA 等众多科技巨头。

所有参与方都将利用 Mythos 预览版进行防御性安全研究,提前发现并修补自身系统的漏洞。Anthropic 承诺将分享此过程中的经验,并计划提供最高 1 亿美元的计算资源额度以支持此项工作,同时已向开源安全组织捐赠了 400 万美元。

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

被“囚禁”的模型与全行业的警钟

Claude Mythos 的发布,可能彻底改变网络安全的格局。AI 安全已不再是遥远的理论风险,而是摆在眼前的现实挑战。

Anthropic 强调,保护全球网络基础设施将是一项持续数年的系统工程,需要前沿 AI 公司、软件厂商、安全研究员、开源社区乃至各国政府的共同参与。面对能力可能在未来几个月内再次跃迁的 AI,行动必须立刻开始。

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御

参考链接:
[1] https://x.com/alexalbert__/status/2041579938537775160
[2] https://www.anthropic.com/glasswing

Claude Mythos预览版发布:AI安全警钟敲响,玻璃翼计划启动全球防御


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29169

(0)
上一篇 2026年4月7日 下午5:45
下一篇 2026年4月8日 下午1:45

相关推荐

  • PromptLocate:大模型安全防御的精准手术刀——首个能定位并清除提示注入攻击的工具深度解析

    在人工智能技术迅猛发展的今天,大模型的安全性问题日益凸显,其中提示注入攻击已成为威胁模型可靠性的核心挑战之一。近日,杜克大学与宾州州立大学联合研究团队推出的PromptLocate工具,标志着大模型安全防御迈入了精准定位与主动修复的新阶段。该工具不仅能检测数据污染,更能精准定位恶意内容的具体位置,实现数据净化和攻击溯源,为大模型的安全部署与应用提供了关键技术…

    2025年10月24日
    39200
  • Anthropic开源AI读心术:Claude内心独白被翻译,俄语Bug揭示模型偏见

    最近,Anthropic推出了一项重大举措:他们训练了一个系统,能够将Claude大脑中的激活向量转化为人类语言。然而,翻译出来的第一句话就引发了问题。 论文地址:https://transformer-circuits.pub/2026/nla/index.html#introduction 在Opus 4.6内部测试期间,研究人员发现了一个奇怪的现象:一…

    2026年5月15日
    20200
  • AI自主攻破全球最安全OS内核:4小时完成国家级攻击链,网络安全进入“token消耗战”时代

    全球最安全OS内核,4小时被AI彻底攻破 这一次,Claude在没有任何人类干预的情况下,自主完成了一套教科书级别的、足以瘫痪全球顶级服务器的全自动攻击链。 它从零构建了两个完整可用的漏洞利用程序,能够在未打补丁的服务器上,直接获取超级用户权限(root shell)。 世界上最安全的操作系统之一,就这样被AI自主攻破了。 这是一个阈值时刻,一个分水岭。 这…

    2026年4月8日
    37501
  • Claude Code入侵智能家居:AI逆向工程狂欢暴露物联网安全危机

    Andrej Karpathy受网友启发,进行了一项有趣的实验:让Claude Code入侵他家的Lutron智能家居系统。 整个过程如同黑客电影的翻版。AI先在本地网络中定位控制器,扫描开放端口,随后在线查阅设备文档,甚至指导用户完成证书配对。最终,它成功接管了全屋的灯光、窗帘、空调和各类传感器。 “我直接删掉了那个又慢又难用的官方App。”Karpath…

    2025年12月28日
    37400
  • IBM CyberPal 2.0:小模型专精网络安全,20B参数超越GPT-4o的垂直领域突破

    近日,IBM Research团队在论文中公布了CyberPal 2.0网络安全专属大模型的研究成果。这项研究揭示了一个重要趋势:在网络安全这一垂直领域,参数规模仅为4B-20B的小型专用模型,在核心威胁调查任务中直接超越了GPT-4o、o1和Sec-Gemini v1等千亿参数级别的通用大模型。其中20B版本在多项基准测试中夺得第一,最小的4B模型也能稳居…

    2025年10月21日
    46600