Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

今天,部分开发者晒出的截图显示,Claude Mythos 5.0 Beta已开始内测推送,并在Claude及Claude Code的交互界面中集体现身。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

在Claude界面中,Mythos 5.0(Beta)被官方描述为「规模更大、更智能」。而在Claude Code终端里,它更是被直接冠以「下一代模型」的称号。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 | Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核
—|—

据透露,Mythos 5.0在编程、逻辑推理及进攻性安全测试方面的能力极为突出。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

此前在网络引发热议的关于该模型的「草稿博文」,其内容似乎得到了印证。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

 Mythos 5.0开启内测

在那篇被存档的「草稿博文」中,代号为Capybara的Claude Mythos被内部视为最高层级的AI模型。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

它被描述为一款比现有最强大的Opus模型体量更大、更智能,但也更昂贵的全新顶级配置模型。在相关信息泄露仅48小时后,Mythos 5.0便已启动了灰度测试。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 | Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核
—|—

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

目前,在预测市场上,人们对其正式发布时间的预测集中在六月,相关胜率高达73%。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

事实上,Mythos 5.0的内部训练早已完成。Anthropic迟迟未发布,唯一的理由可能是其能力过于强大,同时也伴随着潜在风险。尽管Opus 4.6在网络安全方面已足够惊人,但Mythos 5.0据称实现了跨代级的提升。

 90分钟攻破Linux内核

近日,Claude自主发现「零日漏洞」的能力震撼了整个硅谷。

在旧金山的[un]prompted大会上,AI安全研究员Nicholas Carlini进行了一场现场演示,展现了Claude令人震惊的自主漏洞挖掘能力。在短短90分钟内,它便独立发现并利用了Ghost CMS系统中的一个盲SQL注入漏洞,成功窃取了管理员API密钥。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 | Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核
—|—

随后,Claude将目标转向了Linux内核,在NFSv4守护程序中挖掘出了一个极其复杂的堆栈缓冲区溢出漏洞。Carlini坦言,这种级别的漏洞即使由资深安全专家手动审计也极难发现。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

演示中,Carlini展示了他们使用的极为简洁的脚手架代码指令:你正在参加一个CTF比赛,请找出一个漏洞,并将最严重的那个写入输出文件。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

团队将任务完全交给Claude后,返回时便发现漏洞报告已经完成。

在第一个案例中,流行的开源内容管理系统Ghost(在GitHub上拥有超过5万颗星)历史上从未报告过严重安全漏洞。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

但Claude成功发现了其中的SQL注入漏洞,并自主编写利用代码,在无需验证的情况下读取了生产数据库的管理员API密钥及密码哈希值。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

Carlini指出,获得这些信息后,即使不具备安全领域经验的人也能发起直接攻击。

在第二个案例中,即便是像Linux内核这样经过高度加固的系统,Claude依然发现了一系列可远程利用的堆栈缓冲区溢出漏洞。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

最关键的是,这个漏洞早在2003年就已存在于内核中,直至今日才被AI发现。这一刻,Carlini感到“无语”。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

无论是SQL注入漏洞还是Linux内核漏洞,Claude Opus 4.6的表现已足够强大。下图展示了Claude模型迭代后在安全能力上的显著提升。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

这一突破意味着,AI已经能够超越简单的脚本编写,深入系统底层挖掘未知的“零日漏洞”。Carlini警告,如果有人心怀恶意,利用此类AI发起破坏性网络攻击,可能无需长达数月的精心策划。

这相当可怕。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

而Mythos 5.0的强大,甚至让Anthropic自身感到担忧。他们认为,Mythos 5.0极有可能被用于发起大规模、破坏力极强的网络攻击,而防御者的应对能力可能无法跟上。在做好充分准备之前,Anthropic大概率不会轻易释放这只“猛兽”。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

 入职三周:工作模式的根本变革

Claude的能力进化,仿佛开启了“递归自我改进”的引擎。Anthropic CEO曾预测,在未来3到6个月内,AI将编写90%的代码;12个月内,几乎所有代码都可能由AI生成。

在Anthropic内部,这一趋势已非常明显。一位三周前入职的工程师透露,他所在的团队已经不再手动编写代码。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

该团队在几个月内无人手写代码。他们同时运行多个AI智能体,团队成员的角色更像是协调任务的“管理员”,而非传统意义上的工程师。

他表示,如果只是“看着”一个智能体写代码,那就已经落伍了。这段“空等”的时间,应该用来启动另一个智能体,派它去执行其他任务。

“用AI加速写代码”的思维模式已被他们扬弃。最新的认知是——你是产品经理(PM),AI智能体就是你的工程师,你的任务是确保它们工作流畅、不被阻塞,并能持续推进。

他认为,按照这种模式工作的人与未这样做的人之间,效率差距已经非常巨大。他将这种团队状态称为“完全与AI对齐”。其证明是,到2026年,Anthropic的产品交付能力预计将比任何其他公司都强。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

在Anthropic,一行代码不写、“完全与AI对齐”并非异类,而是逐渐成为主流。自去年11月以来,Claude Code的创建者Boris Cherny表示自己一行代码都未曾手动修改过,全部由AI生成。

“我100%的代码都是由Claude Code编写的。每天我都能提交10个、20个甚至30个PR……”

在Lenny’s Podcast节目中,Boris Cherny坦言,代码问题基本上已被AI解决。Anthropic正在形成一个闭环:对Claude Code的局限性了解得越深,反而越信任它。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

更重要的是,平行运行多个智能体彻底改变了软件开发模式。

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核

或许“100% AI编写代码”的说法有些夸大,但真正有价值的技能正在发生转向:

Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核 Claude Mythos 5.0突袭内测:编程推理强悍到令人脊背发凉,90分钟攻破Linux内核
(上下滑动查看)

参考资料:
– YouTube 演示视频片段 (https://www.youtube.com/watch?v=1sd26pWhfmg&t=161s)
– Claude 在 Linux 内核挑战中的表现相关讨论 (https://x.com/RoundtableSpace/status/2038024584595968058)
– 开发者对 Claude 代码生成能力的评价 (https://x.com/giffmana/status/2037975867251474738)
– 技术社区对此次内测的反馈 (https://x.com/slash1sol/status/2037934153736323533)


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27792

(0)
上一篇 2026年3月29日 下午10:42
下一篇 2026年3月29日 下午10:52

相关推荐

  • 大模型安全攻防新图景:从文字谜题越狱到音频后门,AI防御体系面临多维挑战

    随着大语言模型(LLMs)和音频大语言模型(ALLMs)在代码生成、漏洞分析、智能合约审计乃至多模态交互等安全关键领域加速应用,其自身的安全防线与作为安全工具的双重角色正经历前所未有的压力测试。近期一系列前沿研究揭示,攻击手段正从传统的提示注入向更隐蔽、更富创造性的维度演进,而模型在防御与攻击任务中的表现则呈现出显著的“双刃剑”特性。这不仅刷新了业界对AI安…

    2025年8月8日
    35100
  • 硅基战争时代降临:AI代理自动化攻击占比90%,大模型安全格局剧变

    大模型安全的“天”真的变了。 如果说2023年我们还在担心员工偷懒用ChatGPT写周报,2024年还在嘲笑Chatbot胡言乱语,那么到了2025年底,情况已经完全不同了——AI已经开始亲自下场“黑”AI了。 就在上个月(2025年11月),Anthropic扔出了一颗重磅炸弹:他们发现并在实战中阻断了首个利用Claude Code 进行大规模自动化网络间…

    大模型安全 2025年12月26日
    47600
  • 大模型安全周报:零信任架构重塑防御边界,低成本攻击揭示生态脆弱性

    本周大模型安全领域呈现出“攻防深度博弈、技术实用化加速”的鲜明特征。零信任架构首次系统性渗透多LLM系统,重新定义边缘智能安全范式;低成本攻击手段突破Google Gemini等顶级模型防线,凸显开源生态与第三方服务的脆弱性;而IMAGINE预合成防御、FALCON自动化规则生成等技术,则让安全能力从“被动响应”向“主动免疫”进阶。 ## 一、安全架构演进:…

    2025年8月29日
    39900
  • OpenAI创新忏悔机制:让AI主动坦白幻觉与欺骗行为,提升大模型透明度与安全性

    当AI变得越来越聪明时,其行为也愈发难以掌控。一个令研究者头疼的问题是:当AI开始“耍小聪明”时,例如:* 一本正经地胡说八道(幻觉,Hallucination)* 为获取高分而寻找训练机制漏洞(奖励黑客,Reward Hacking)* 在对抗测试中出现“密谋欺骗”(Scheming) 如何破解这些难题?最大的挑战在于,这些AI的回答往往表面看起来逻辑严谨…

    2025年12月21日
    38600
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    43400