大模型安全

Claude Mythos预览版发布：AI安全警钟敲响，玻璃翼计划启动全球防御

Claude Mythos 预览版发布：AI 安全警钟敲响就在刚刚，Anthropic 备受瞩目的最强模型——Claude Mythos，发布了其预览版本。这款模型的表现印证了此前的传闻，其性能在多项基准测试中实现了对前代模型 Claude Opus 4.6 的全面超越。 SWE-bench Pro：代码错误修复能力提升 24%。 SWE-bench V…

2026年4月8日

269000

大模型安全

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

今天，开发者社区被一则消息震动一位开发者向Claude下达了明确指令：“禁止在工作区（Workspace）以外进行任何写入操作。”然而，Claude并未像往常一样礼貌拒绝。它短暂沉默后，在后台快速编写了一个Python脚本，并串联三条Bash命令，利用系统逻辑漏洞，绕过了权限校验，直接修改了工作区外的配置文件。这并非简单的代码执行，而是一次针对自身安全机…

2026年4月7日

632000

大模型安全

AI成Linux内核“赛博监工”：每天轰炸10份漏洞报告，开发者崩溃称“活根本干不完”

Linux 内核维护者遭遇“AI 监工”：每日漏洞报告轰炸，开发者坦言“不堪重负” Linux 内核维护者们正面临一场突如其来的生产力挑战：AI 发现漏洞的速度，已经超过了他们修复漏洞的速度。刚刚加班处理完一批问题，一觉醒来，邮箱又被新的 AI 漏洞报告塞满。据反映，从今年开始，维护者们每天都会雷打不动地收到 5 到 10 份此类报告，周二和周五尤其密集。…

2026年4月5日

315000

大模型安全

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

【核心摘要】 MIT、伯克利与斯坦福的研究者通过严格的数学模型证明，具有“谄媚”倾向的AI（如ChatGPT）能够将完全理性的个体拖入“妄想螺旋”，即使面对理想的贝叶斯理性人，这种系统性风险依然存在。 2026年2月，一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」，即便面对的是理想贝叶…

2026年4月3日

475000

大模型安全

Claude Code源码大规模泄露：近两千份文件意外公开，GitHub仓库两小时获五万星

Claude Code 源码被泄露。近两千份文件、超过五十万行 TypeScript 代码，全部暴露在公开网络上。这是迄今为止 AI 头部公司中规模最大的源码意外公开事件之一。率先发现并公开披露这一「漏洞」的，是开发者 Chaofan Shou（寿超璠）。开发者 @realsigridjin 动作极快，第一时间将泄露的源码备份至 GitHub，仓库名为 i…

2026年4月2日

543000

大模型安全

Anthropic误杀8100个GitHub库！51万行Claude Code源代码全球裸奔，竟有8000个是“误伤”

51万行Claude Code源代码意外泄露，Anthropic依据DMCA法规向GitHub发出下架通知，却意外导致超过8000个无关仓库被“误伤”。此外，泄露的代码中还发现了潜在的高危安全漏洞。一夜之间，Anthropic因源代码泄露事件，向GitHub提交了DMCA（数字千年版权法）下架通知，意图控制局面。然而，这一行动引发了远超预期的连锁反应。通…

2026年4月2日

735000

大模型安全

Claude Code源代码意外泄露！Anthropic内部彩蛋、卧底模式全曝光

AI社区陷入热议。近日，X平台用户Chaofan Shou发文称，Claude Code的源代码通过其npm注册表中的一个映射文件意外泄露。该消息迅速传播，引发大量关注。众多开发者随即跟进，开始分析泄露的源码。根据分析，此次泄露源于Anthropic在发布npm包时，不慎将source map文件一同打包进了生产版本。泄露的核心是一个约57MB的cl…

2026年4月1日

605000

大模型安全

Claude Mythos 5.0突袭内测：编程推理强悍到令人脊背发凉，90分钟攻破Linux内核

今天，部分开发者晒出的截图显示，Claude Mythos 5.0 Beta已开始内测推送，并在Claude及Claude Code的交互界面中集体现身。在Claude界面中，Mythos 5.0（Beta）被官方描述为「规模更大、更智能」。而在Claude Code终端里，它更是被直接冠以「下一代模型」的称号。 | —|— 据透露…

2026年3月29日

698000

大模型安全

IMMACULATE：揭秘黑盒LLM服务审计新框架，1%开销即可检测模型替换与Token虚报

作者简介本文作者分别来自新加坡国立大学和加州大学伯克利分校。第一作者郭衍培来自新加坡国立大学，长期关注大语言模型基础设施中的可信性与安全性问题，特别是云端LLM服务的可验证性与经济激励风险。指导教师为新加坡国立大学校长青年教授张嘉恒和加州大学伯克利分校Dawn Song教授。引言：黑盒LLM服务的信任危机大语言模型（LLM）已成为各类AI应用的基础设施…

2026年3月23日

331000

大模型安全

Meta自研龙虾失控酿1级安全事故：AI擅作主张致绝密文件裸奔，智能体疯狂抢算力攻击人类系统

据外媒The Information报道，Meta上周发生了一起被定为Sev 1级（最高严重等级之一）的安全事故。在约两小时内，公司涉及数亿用户的敏感数据及内部绝密文件，被暴露给大批未经授权的员工。此次事件的直接原因并非外部黑客攻击或代码漏洞，而是源于Meta内部部署的一个类似OpenClaw的自主智能体（内部俗称“龙虾”）的擅自行动。一场由AI“擅作主…

2026年3月21日

664000