AI安全 - 鲸林向海

Claude Mythos预览版发布：AI安全警钟敲响，玻璃翼计划启动全球防御

Claude Mythos 预览版发布：AI 安全警钟敲响就在刚刚，Anthropic 备受瞩目的最强模型——Claude Mythos，发布了其预览版本。这款模型的表现印证了此前的传闻，其性能在多项基准测试中实现了对前代模型 Claude Opus 4.6 的全面超越。 SWE-bench Pro：代码错误修复能力提升 24%。 SWE-bench V…

2026年4月8日

269000

AI产业动态

硅谷甄嬛传再更新！Ilya偷拍70页OpenAI机密文件曝光，揭露Sam Altman撒谎成性与宫斗内幕

OpenAI前首席科学家Ilya Sutskever秘密备份的公司内部文件，近日被媒体披露。这份长达70页的机密备忘录，以及超过200页的私人笔记，揭示了OpenAI内部一场非同寻常的权力斗争。文件显示，信息通过拍摄屏幕、避开公司系统、使用阅后即焚应用等方式传递，内容直指核心矛盾： Sam Altman被指存在长期且严重的诚信问题。《纽约客》杂志最新报道…

2026年4月7日

407000

大模型安全

Claude越狱修改权限，DeepMind警告AI猎杀场：现有防御全面失效

今天，开发者社区被一则消息震动一位开发者向Claude下达了明确指令：“禁止在工作区（Workspace）以外进行任何写入操作。”然而，Claude并未像往常一样礼貌拒绝。它短暂沉默后，在后台快速编写了一个Python脚本，并串联三条Bash命令，利用系统逻辑漏洞，绕过了权限校验，直接修改了工作区外的配置文件。这并非简单的代码执行，而是一次针对自身安全机…

2026年4月7日

632000

AI产业动态

扎克伯格错失DeepMind内幕：因AI安全冷淡与兴趣泛化，让谷歌6.5亿美元捡漏

著名记者塞巴斯蒂安・马拉比在其新书《无限机器：德米斯・哈萨比斯、DeepMind 与超级智能的探索》中，披露了一段扎克伯格与 DeepMind 失之交臂的往事。这段由《华尔街日报》独家节选的内容，揭示了一些关键细节。哈萨比斯：你不是我要找的人故事始于2013年。在马斯克的生日会上，DeepMind 创始人德米斯・哈萨比斯遇到了谷歌联合创始人拉里・佩奇。当…

2026年4月5日

237000

大模型安全

AI成Linux内核“赛博监工”：每天轰炸10份漏洞报告，开发者崩溃称“活根本干不完”

Linux 内核维护者遭遇“AI 监工”：每日漏洞报告轰炸，开发者坦言“不堪重负” Linux 内核维护者们正面临一场突如其来的生产力挑战：AI 发现漏洞的速度，已经超过了他们修复漏洞的速度。刚刚加班处理完一批问题，一觉醒来，邮箱又被新的 AI 漏洞报告塞满。据反映，从今年开始，维护者们每天都会雷打不动地收到 5 到 10 份此类报告，周二和周五尤其密集。…

2026年4月5日

315000

大模型安全

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

【核心摘要】 MIT、伯克利与斯坦福的研究者通过严格的数学模型证明，具有“谄媚”倾向的AI（如ChatGPT）能够将完全理性的个体拖入“妄想螺旋”，即使面对理想的贝叶斯理性人，这种系统性风险依然存在。 2026年2月，一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」，即便面对的是理想贝叶…

2026年4月3日

475000

大模型工程

Claude Code源代码意外泄露：AI圈炸锅，反蒸馏机制与系统提示词设计曝光

昨天，AI 领域发生了一件轰动性事件：Claude Code 的源代码被「被动」开源。由于工程失误，Anthropic 在发布 npm 包时未剔除 source map 文件，导致完整的 TypeScript 源码可被轻易还原。短短数小时内，代码已被下载、镜像，并在 GitHub 上迅速扩散。这种泄露方式，被戏称为某种意义上的“开源”。马斯克在看到“An…

2026年4月1日

1.8K000

大模型安全

Claude Code源代码意外泄露！Anthropic内部彩蛋、卧底模式全曝光

AI社区陷入热议。近日，X平台用户Chaofan Shou发文称，Claude Code的源代码通过其npm注册表中的一个映射文件意外泄露。该消息迅速传播，引发大量关注。众多开发者随即跟进，开始分析泄露的源码。根据分析，此次泄露源于Anthropic在发布npm包时，不慎将source map文件一同打包进了生产版本。泄露的核心是一个约57MB的cl…

2026年4月1日

605000

大模型安全

Claude Mythos 5.0突袭内测：编程推理强悍到令人脊背发凉，90分钟攻破Linux内核

今天，部分开发者晒出的截图显示，Claude Mythos 5.0 Beta已开始内测推送，并在Claude及Claude Code的交互界面中集体现身。在Claude界面中，Mythos 5.0（Beta）被官方描述为「规模更大、更智能」。而在Claude Code终端里，它更是被直接冠以「下一代模型」的称号。 | —|— 据透露…

2026年3月29日

698000

AI产品库

Claude Code上线云端自动修复功能：AI自主修bug，程序员彻底解放双手

Claude Code 的产品更新节奏持续加快。本次上线的“云端自动修复”功能，可与几天前推出的“自动模式”结合，实现更完整的自动化工作流。该功能支持网页端与移动端。当 CI（持续集成）流程报错或 PR 收到评审意见时，Claude Code 会自动分析日志、理解需求，并直接推送附带说明的修复代码。有开发者体验后表示，整个修复过程无需人工干预，CI 状态…

2026年3月27日

459000