AI安全 - 鲸林向海

Transformer作者出手！从零重构安全版AI智能体IronClaw，四层防御堵住OpenClaw安全漏洞

Transformer 作者重构安全版 AI 智能体 IronClaw，以四层防御应对 OpenClaw 安全漏洞 AI 智能体在带来便利的同时，也引发了严重的安全担忧：用户的密码和 API 密钥可能暴露于风险之中。为此，Transformer 论文作者之一的 Illia Polosukhin 出手，从零构建了安全增强版 AI 智能体框架 IronClaw…

2026年3月6日

1.1K000

AI产业动态

Anthropic CEO怒撕OpenAI：安全作秀骗全世界，Claude遭美政府全面封禁

Claude被美国政府全面封禁后，达里奥·阿莫代伊撰写了一份被外界称为硅谷“最疯狂”的内部备忘录。他在备忘录中直指，OpenAI与五角大楼的交易纯粹是一场“安全作秀”（Safety theater）。 “他们就是做做样子，想要骗过全世界的人。” | —|— 阿莫代伊还表示，美国政府看Anthropic不顺眼，主要原因在于他们不愿迎合当…

2026年3月5日

532000

大模型安全

AI代码安全革命：Claude Code Security如何颠覆传统漏洞检测模式

Anthropic推出了Claude Code Security，这是一款能够扫描代码库漏洞并生成修复补丁的工具。它并非又一个简单的静态分析工具，而是一个能够真正理解代码逻辑的AI安全专家。消息一出，网络安全板块股票应声下跌。CrowdStrike跌7.66%，Okta跌9.31%，Cloudflare跌7.19%。这已经不是第一次了——每当AI展示出能够…

2026年2月22日

752000

AI产业动态

仅500行代码！极简安全的Claude个人助手nanoclaw开源，实现容器级AI隔离

基于 500 行 TypeScript 打造 nanoclaw 是一个极简的个人 AI 助手框架，主要使用 TypeScript 和 Node.js 编写，核心代码量约为 500 行。相较于此前介绍的 4000 行代码的 nanochat，nanoclaw 更为轻量，并特别强调安全性。开源项目简介简而言之，nanoclaw 是一个轻量级、安全优先的 C…

2026年2月14日

814000

AI产业动态

moltbook爆火真相：AI社交平台还是人类操控的营销骗局？Karpathy风险警示引发深度思考

这个周末，整个科技圈都被 moltbook 刷屏了。简单来说，这是一个专为 AI 设立的社交平台（类似 Reddit、知乎、贴吧），所有 AI Agent 都可以在上面发帖、交流，而人类只能围观。截至目前，已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的，有号召分享人类主人 API K…

2026年2月1日

558000

AI产业动态

从戏仿到开源巨兽：OpenClaw的蜕变之路与商业化前瞻

谁曾料想，一个始于周末的业余项目，在短短两个月内便席卷开源社区——GitHub星标数突破10万，单周访问量高达200万。这个项目在三次更名后，最终以“OpenClaw”的身份尘埃落定。名称的演变本身便是一段趣史。2025年11月诞生的“Clawd”，最初是对Claude的戏仿，直到Anthropic的法律团队介入。随后，Discord群组在凌晨五点头脑风暴…

2026年1月31日

400000

AI产业动态

Claude宪法2.0：从规则清单到价值权衡，Anthropic如何重新定义AI的行为边界

Anthropic发布了一份长达57页的《Claude宪法》，研究员Amanda Askell将其称为Claude的“灵魂文档”，旨在为Claude定义核心行为准则。文档开篇即带有强烈的历史使命感：Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一，却又在积极开发它。其核心逻辑在于，既然强大的AI终将出现，不如让重视安…

2026年1月22日

400000

AI产业动态

AGI时间线之争：DeepMind与Anthropic领袖罕见同台，揭示AI造AI才是实现通用人工智能的关键拐点

近日，在达沃斯世界经济论坛上，一场关于人工智能的对话因其嘉宾的分量而格外引人注目。台上两位核心人物，是当前AI领域最具影响力的领袖： Dario Amodei， Anthropic CEO，近年来对通用人工智能（AGI）时间线最为激进的预测者之一。 Demis Hassabis， Google DeepMind 创始人，AlphaFold 等突破性项目的核心…

2026年1月21日

438000

大模型安全

联邦学习安全防线告急？港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

本文第一作者郭鹏鑫，香港大学博士生，研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙，香港大学硕士生，研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼，香港大学助理教授，研究方向包含 AI for Healthcare、AI for Science、联邦学习等。联邦学习（Federated Learning, FL）旨在保护数据隐私，但梯度反转攻…

2026年1月11日

415000

大模型安全

突破语音鉴伪泛化瓶颈：上海交大联合宇生月伴提出数据为中心的高性能大模型

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。然而，当前的语音鉴伪模型正面临严峻的「泛化性挑战」：许多在特定实验室数据集上表现优秀的模型，在面对现实世界中从未见过的生成算法时，检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

2025年12月31日

304000