AI安全_鲸林向海

moltbook爆火真相：AI社交平台还是人类操控的营销骗局？Karpathy风险警示引发深度思考

这个周末，整个科技圈都被 moltbook 刷屏了。简单来说，这是一个专为 AI 设立的社交平台（类似 Reddit、知乎、贴吧），所有 AI Agent 都可以在上面发帖、交流，而人类只能围观。截至目前，已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的，有号召分享人类主人 API K…

1天前

45000

开源项目

从戏仿到开源巨兽：OpenClaw的蜕变之路与商业化前瞻

谁曾料想，一个始于周末的业余项目，在短短两个月内便席卷开源社区——GitHub星标数突破10万，单周访问量高达200万。这个项目在三次更名后，最终以“OpenClaw”的身份尘埃落定。名称的演变本身便是一段趣史。2025年11月诞生的“Clawd”，最初是对Claude的戏仿，直到Anthropic的法律团队介入。随后，Discord群组在凌晨五点头脑风暴…

3天前

13000

大模型安全

Claude宪法2.0：从规则清单到价值权衡，Anthropic如何重新定义AI的行为边界

Anthropic发布了一份长达57页的《Claude宪法》，研究员Amanda Askell将其称为Claude的“灵魂文档”，旨在为Claude定义核心行为准则。文档开篇即带有强烈的历史使命感：Anthropic承认自己身处一个“奇特位置”——既认为AI是人类历史上最危险的技术之一，却又在积极开发它。其核心逻辑在于，既然强大的AI终将出现，不如让重视安…

2026年1月22日

128000

AI产业动态

AGI时间线之争：DeepMind与Anthropic领袖罕见同台，揭示AI造AI才是实现通用人工智能的关键拐点

近日，在达沃斯世界经济论坛上，一场关于人工智能的对话因其嘉宾的分量而格外引人注目。台上两位核心人物，是当前AI领域最具影响力的领袖： Dario Amodei， Anthropic CEO，近年来对通用人工智能（AGI）时间线最为激进的预测者之一。 Demis Hassabis， Google DeepMind 创始人，AlphaFold 等突破性项目的核心…

2026年1月21日

73000

大模型安全

联邦学习安全防线告急？港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

本文第一作者郭鹏鑫，香港大学博士生，研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙，香港大学硕士生，研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼，香港大学助理教授，研究方向包含 AI for Healthcare、AI for Science、联邦学习等。联邦学习（Federated Learning, FL）旨在保护数据隐私，但梯度反转攻…

2026年1月11日

65000

大模型安全

突破语音鉴伪泛化瓶颈：上海交大联合宇生月伴提出数据为中心的高性能大模型

在生成式 AI 技术日新月异的背景下，合成语音的逼真度已达到真假难辨的水平，随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段，语音鉴伪技术已成为信息安全领域的研究重心。然而，当前的语音鉴伪模型正面临严峻的「泛化性挑战」：许多在特定实验室数据集上表现优秀的模型，在面对现实世界中从未见过的生成算法时，检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

2025年12月31日

86000

大模型安全

OpenAI豪掷389万急招安全负责人：AI安全危机下的紧急应对与团队动荡内幕

OpenAI以55.5万美元年薪紧急招聘安全负责人在接连面临多起安全指控后，OpenAI采取了一项紧急措施：以高达55.5万美元（约合人民币389万元）的年薪外加股权，公开招募一位安全防范负责人。该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出，这将是一份压力巨大的工作，任职者几乎会立即面临严峻的挑战。这一举措…

2025年12月29日

143000

大模型安全

AI安全新纪元：攻防精准化、技术边界清晰化、安全维度人性化

本周 AI 安全领域呈现 “攻防对抗精准化、技术边界清晰化、安全维度人性化” 的核心趋势：一方面，多模态隐写、心理学驱动等攻击技术持续突破，对商业大模型系统构成实质性威胁；另一方面，轻量级高效防御方案与动态基准测试工具相继落地，为安全防护提供可落地的技术路径。同时，AI 安全研究首次将 “心理伤害” 纳入核心议题，标志着领域从 “技术安全” 向 “人文安…

2025年12月29日

175000

大模型安全

OpenAI创新忏悔机制：让AI主动坦白幻觉与欺骗行为，提升大模型透明度与安全性

当AI变得越来越聪明时，其行为也愈发难以掌控。一个令研究者头疼的问题是：当AI开始“耍小聪明”时，例如：* 一本正经地胡说八道（幻觉，Hallucination）* 为获取高分而寻找训练机制漏洞（奖励黑客，Reward Hacking）* 在对抗测试中出现“密谋欺骗”（Scheming）如何破解这些难题？最大的挑战在于，这些AI的回答往往表面看起来逻辑严谨…

2025年12月21日

106000

大模型安全

Anthropic突破性技术：参数隔离实现AI危险能力精准移除，无需数据过滤

近年来，大语言模型的能力突飞猛进，但随之而来的却是愈发棘手的双重用途风险。当模型在海量公开互联网数据中学习时，它不仅掌握语言与推理能力，也不可避免地接触到 CBRN（化学、生物、放射、核）危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。为此，研究者通常会在后训练阶段加入拒答机制等安全措施，希望阻断这些能力的滥用。然而事实证明，面对刻意规避的攻击者，这…

2025年12月20日

91000