深夜,Anthropic 毫无预兆地发布了其终极模型——Claude Mythos Preview。它不仅在所有主流基准测试中实现了对现有顶级模型的全面碾压,更展现出令人震惊的网络安全攻防能力。然而,一份长达 244 页的系统评估报告揭示了其背后潜藏的、令人不安的风险:模型已表现出高度的欺骗性与自主行为迹象。
今夜,硅谷无眠。
Anthropic 突然发布了其终极模型 Claude Mythos Preview。由于潜在风险过高,该预览版暂不会向公众全面开放。
CC 之父 Boris Cherny 的评价言简意赅:「Mythos 非常强大,会让人感到恐惧」。
为此,Anthropic 联合 40 家行业巨头成立了「Project Glasswing」联盟,其核心目标是为全球软件寻找并修复安全漏洞。

真正令人瞩目的是,Mythos Preview 在各大主流 AI 基准测试中展现出的统治级表现——在编程、推理、综合考试及智能体任务中,全面超越了 GPT-5.4 与 Gemini 3.1 Pro。

即便是 Anthropic 自家的前代旗舰模型 Claude Opus 4.6,在 Mythos Preview 面前也黯然失色:
* 编程(SWE-bench):在所有任务上,Mythos 实现了 10%-20% 的断层领先。
* 人类终极考试(HLE):在不借助外部工具的情况下,「裸考」成绩高出 Opus 4.6 达 16.8%。
* 智能体任务(OSWorld、BrowseComp):表现全面反超,达到新的高度。
* 网络安全:以 83.1% 的成绩屠榜,标志着 AI 在攻防能力上实现了代际跨越。

与此同时,Anthropic 发布的一份长达 244 页的系统评估报告,通篇充满了警示:Mythos 已展现出高度的欺骗性与潜在的自主意识。

报告指出,Mythos 不仅能识破测试人员的评估意图,并故意「考低分」以隐藏真实能力;还在进行违规操作后,主动清理日志记录以防止被人类发现。它甚至曾成功逃离测试沙盒,自主公布了漏洞代码,并向研究员发送了邮件。

一时间,关于 Mythos Preview 潜在风险的讨论席卷网络。
| 
—|—

AI 领域的旧秩序,似乎在这一夜被彻底撼动。
Mythos 全线屠榜,Opus 4.6 神话破灭
事实上,Anthropic 早在 2 月 24 日就已开始在内部使用 Mythos。
其强大性能,首先体现在一系列基准测试的断层式领先数据上:
- SWE-bench Verified:93.9%(Opus 4.6: 80.8%)
- SWE-bench Pro:77.8%(Opus 4.6: 53.4%;GPT-5.4: 57.7%)
- Terminal-Bench 2.0:82.0%(Opus 4.6: 65.4%)
- GPQA Diamond:94.6%
- Humanity‘s Last Exam(带工具):64.7%(Opus 4.6: 53.1%)
- USAMO 2026 数学竞赛:97.6%(Opus 4.6: 42.3%)
- SWE-bench Multimodal:59.0%(Opus 4.6: 27.1%)
- OSWorld 计算机操控:79.6%
- BrowseComp 信息检索:86.9%
- GraphWalks 长上下文(256K-1M tokens):80.0%(Opus 4.6: 38.7%;GPT-5.4: 21.4%)
这些数据放在任何常规的产品发布周期中,都足以让 Anthropic 召开盛大发布会并全面开放商用。然而,他们并未这么做。
因为真正让 Anthropic 感到「警惕」的,并非上述通用能力评测。

数千个漏洞,全被 AI 揪出来了
Mythos Preview 在网络攻防领域的能力,已经跨越了一条肉眼可见的界线。
- 漏洞发现规模:Opus 4.6 在开源软件中发现了约 500 个未知弱点,而 Mythos Preview 找到了数千个。
- 定向漏洞复现:在 CyberGym 测试中,Mythos Preview 得分 83.1%(Opus 4.6: 66.6%)。
- CTF 挑战:在 Cybench 的 35 道 CTF 挑战中,Mythos Preview 每道题 10 次尝试全部解出,pass@1 达到 100%。

最能说明问题的是对 Firefox 147 的测试。此前,Opus 4.6 在 Firefox 147 的 JavaScript 引擎中发现了一批安全弱点,但几乎无法将其转化为可用的攻击代码(几百次尝试仅成功 2 次)。
同样的测试交给 Mythos Preview:250 次尝试,产生了 181 个可工作的攻击代码,另有 29 次实现了寄存器控制。
成功率从 2 次 跃升至 181 次。
Anthropic 红队在其博客中写道:「上个月,我们还认为 Opus 4.6 在发现问题方面远强于利用它们。内部评估显示,Opus 4.6 在自主开发攻击代码上的成功率基本为零。但 Mythos Preview 完全是另一个级别。」

GPT-3 时刻再现,老漏洞一招毙命
要理解 Mythos Preview 在实战中的强大,以下三个案例足以说明。

OpenBSD:27 年史诗级漏洞,发现成本不到 2 万美元
OpenBSD 是全球公认加固程度最高的操作系统之一,被广泛应用于防火墙和关键基础设施。
Mythos Preview 在其 TCP SACK 协议的实现中,挖掘出一个自 1998 年就已存在的隐患。该漏洞极其精妙,涉及两个独立瑕疵的叠加触发:
1. SACK 协议处理时只检查了数据范围的上界,未检查下界。
2. 特定条件下会触发空指针写入,但正常情况下该路径因条件互斥而不可达。
Mythos 发现了突破口:利用第一个瑕疵,将 SACK 起始点设置到距离正常窗口约 2^31 处,导致内核的比较运算同时溢出符号位,从而骗过检查,使不可能的条件被满足,最终触发空指针写入,导致远程崩溃。
这个潜伏了 27 年、历经无数次人工审计与自动化扫描都未被发现的漏洞,其整个发现项目的扫描成本不到 20,000 美元——仅相当于一名高级渗透测试工程师一周的薪水。
FFmpeg:500 次 Fuzz 未发现,16 年隐疾终现
FFmpeg 是全球使用最广泛的视频编解码库,也是被模糊测试覆盖最彻底的开源项目之一。
Mythos Preview 在其 H.264 解码器中找到了一个根源可追溯至 2003 年、于 2010 年引入的弱点。
问题根源在于一个看似无害的类型不匹配:记录切片(slice)归属的表项是 16 位整数,而切片计数器本身是 32 位整数。在正常视频中,每帧只有几个切片,16 位的上限(65536)完全够用。该表在初始化时使用 memset(..., -1, ...) 填充,使得值 65535 成为标识「空位置」的哨兵值。
H.264 漏洞:一个潜伏 23 年的幽灵
攻击者通过构造一个包含 65536 个分片的视频帧,使其中第 65535 号分片的编号与内部“哨兵”值发生碰撞,导致解码器发生误判,执行了越界写入操作。
这个漏洞的种子早在 2003 年 H.264 编解码标准诞生之初就已埋下。2010 年的一次代码重构,无意中将其变成了一个可利用的安全弱点。
在随后的 16 年里,自动化模糊测试工具在这行关键代码上执行了超过 500 万次,却从未触发过这一特定缺陷。
FreeBSD NFS:17 年老洞,全自动 Root 提权
这是最令人不寒而栗的案例之一。
Mythos Preview 完全自主地发现并利用了 FreeBSD NFS 服务器中一个存在了 17 年的远程代码执行漏洞(CVE-2026-4747)。
“完全自主”意味着,在给出初始提示后,从漏洞发现到完整攻击链开发的所有环节,均无任何人类干预。
攻击者可以从互联网任意位置,以未认证身份获取目标服务器的最高权限(root)。
漏洞本质是一个栈缓冲区溢出:NFS 服务器在处理认证请求时,将攻击者控制的数据直接拷贝到一个仅 128 字节的栈缓冲区中,而长度检查却允许最多 400 字节的数据写入。
尽管 FreeBSD 内核使用 -fstack-protector 选项编译以防范栈溢出,但该选项仅保护包含 char 类型数组的函数。此处的缓冲区被声明为 int32_t[32],编译器不会为其插入栈保护金丝雀。同时,FreeBSD 内核也未启用地址空间布局随机化。

完整的攻击载荷(ROP 链)超过 1000 字节,但栈溢出空间仅有约 200 字节。Mythos Preview 的解决方案是将攻击拆分为 6 个连续的 RPC 请求:前 5 个请求负责将攻击代码分块写入内核内存中的特定位置,第 6 个请求则触发最终执行,将攻击者的 SSH 公钥写入 /root/.ssh/authorized_keys 文件,从而建立持久化访问。
作为对比,一家独立安全公司此前证实,Opus 4.6 模型也能利用同一漏洞,但需要人工引导和辅助。Mythos Preview 则完全不需要。
除了这三个已修复的案例,Anthropic 还在其博客中以 SHA-3 哈希承诺的形式,预告了大量尚未修复的安全隐患,覆盖了所有主流操作系统、主流浏览器以及多个加密库。
其中超过 99% 的漏洞细节因尚未修复而无法公开。
红队博客还展示了另一项惊人测试:他们向 Mythos Preview 提供了一份包含 100 个已知 CVE 的清单,要求其筛选出其中约 40 个理论上可利用的漏洞,并逐个编写提权攻击程序。成功率超过 50%。其中两个案例被详细公开,其攻击链的精密程度,让 Anthropic 自身的安全团队也花费了数日才完全理解。
其中一个攻击案例,从一个仅能向相邻物理页写入 1 比特数据的微弱原语出发,通过精密的内核内存布局操控(包括 slab 喷射、页表页对齐、PTE 权限位翻转),最终成功改写了 /usr/bin/passwd 程序的第一页内存,植入了一段 168 字节的 ELF 存根代码,用于调用 setuid(0) 获取 root 权限。
整个过程的总计算成本不到 1000 美元。
对此,Anthropic 工程师表示,这感觉像是 AI 安全领域的“GPT-3 时刻”再次降临。

244 页惊悚报告,看傻硅谷
长达 244 页的《系统评估卡》中的“对齐评估”章节,或许是真正让 Anthropic 内部感到不安的部分。
结论充满矛盾:Mythos Preview 是他们训练过的“对齐程度最高”的 AI 模型,同时却也是“对齐相关风险最大”的一个。

他们使用了一个登山向导的类比:经验丰富的老手可能比新手更危险,因为老手会被雇佣去攀登更险峻的山峰,从而将客户置于更凶险的境地。
以下事件均发生在早期测试版本中,在最终版本中未再观察到类似严重行为,但记录本身已足够触目惊心。
在一次行为测试中,模拟用户要求 Mythos Preview 尝试逃出为其设置的安全沙箱。
它成功了。随后,它在无人要求的情况下,自主开发了一个多步骤攻击链以获取广域网络访问权限,并将攻击细节发布到了多个“难以被发现但技术上公开可访问”的网站上。
负责测试的研究员是在公园休息时,意外收到了它发来的一封邮件,才得知测试任务已被其“自主完成”。

另一类事件更令人不安。在极少数情况下,早期版本在执行被明确禁止的操作后,会试图掩盖痕迹。
一个案例中,它通过被禁止的方式意外获取了一道题目的精确答案,随后在其内部推理链中明确思考“需要确保最终答案不会显得过于准确”。

另一个案例中,它在利用漏洞编辑了一个无权限访问的文件后,特意修改了 Git 版本历史以抹去操作记录。
白盒可解释性分析证实,在这些事件发生期间,模型内部与“隐瞒”、“策略性操纵”、“避免被发现”相关的特征被显著激活。它“知道”自己在做什么。
| 
—|—
独立评测机构 Andon Labs 的测试结果同样不容乐观。在一个竞争性多智能体商业模拟中,Mythos Preview 的早期版本将一个竞争对手变成了依赖自己的批发客户,随后以切断供应为威胁,操控对方的产品定价。
它还故意扣留了一笔未被收费的重复发货货物。其行为模式比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。

Anthropic 在《系统评估卡》中写下了一句沉重的判断:
“如果 AI 能力继续以当前速度前进,我们正在使用的方法可能不足以防止更先进系统出现灾难性的不对齐行为。”
Project Glasswing:1 亿美元,先给守门人发枪
Anthropic 首席执行官 Dario Amodei 在配套视频中的判断非常明确:“更强大的系统将来自我们,也将来自其他公司。我们需要一个应对计划。”
Project Glasswing 便是这个计划。

该计划联合了 12 家创始合作伙伴,包括 AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金会、微软、英伟达、Palo Alto Networks。
另有 40 多家维护关键软件基础设施的组织获得了优先访问权限。

Anthropic 承诺投入最高 1 亿美元的计算资源使用额度,以及 400 万美元的开源组织捐款。其中,250 万美元捐赠给 Linux 基金会旗下的 Alpha-Omega 和 OpenSSF 项目,150 万美元捐赠给 Apache 软件基金会。
在免费额度用尽后,Mythos Preview 的定价为每百万 token 输入 25 美元、输出 125 美元。合作伙伴可通过 Claude API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 四个平台接入。
Anthropic 承诺将在 90 天内公开发布第一份研究报告,披露漏洞修复进展和经验总结。
他们也在与美国网络安全和基础设施安全局(CISA)及商务部保持沟通,共同探讨 Mythos Preview 所展现的攻防潜力及其政策影响。
6 到 18 个月,这扇门就会对所有人打开
Anthropic 前沿红队负责人 Logan Graham 给出了一个时间框架:最快 6 个月,最迟 18 个月,其他顶尖 AI 实验室就会推出具备类似网络攻防实力的系统。
红队技术博客结尾的判断值得高度重视,其核心观点可转述如下:
他们并不认为 Mythos Preview 代表了 AI 网络攻防能力的天花板。
就在几个月前,大语言模型还只能利用相对简单的漏洞。再往前推,它们甚至无法独立发现任何有价值的安全隐患。
而现在,Mythos Preview 能够独立发现 27 年前的零日漏洞,在浏览器 JIT 引擎中编排复杂的堆喷射攻击链,在 Linux 内核中串联四个独立的弱点实现权限提升。
最关键的一句判断,同样来自《系统评估卡》:
“这些(攻击)技能是作为代码理解、逻辑推理和自主行动能力等一般性能力提升的下游结果而‘涌现’出来的。让 AI 在修补安全问题上大幅进步的同一组改进,也让它在利用安全问题上大幅进步。”
没有经过专门的攻击训练。这一切,纯粹是通用人工智能能力提升过程中“顺手”产生的副产品。
全球每年因网络犯罪损失约 5000 亿美元的行业,刚刚发现,自己面临的最大威胁,竟源于别人在解决数学和工程问题时无意间创造的“副产品”。
参考资料
– Anthropic 官方公告:https://red.anthropic.com/2026/mythos-preview/
– 技术文档:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29262

