大模型安全

Anthropic引爆行动智能革命：Claude Mythos被“锁进笼子”，AI从“会说”跨入“会做”时代

4月8日，Anthropic正式宣布推出 Claude Mythos Preview。这家始终将“安全”置于首位的公司，向全球软件行业投下了一枚震撼弹——随后，它并未庆祝，反而立即着手将这枚炸弹置于严密的控制之下。按照常规逻辑，这理应是一场关于“参数更大、评分更高、价格更贵”的例行发布。然而，此次发布风格迥异：模型虽已造出，却无意全面开放。 Anthro…

2026年4月21日

301000

大模型安全

Nature重磅！Anthropic揭示大语言模型“潜意识学习”风险：无关数据竟能传递偏好与危险行为

核心发现：数据中的“幽灵信号” 一个令人不安的实验现象想象这样一个场景：你让一个大语言模型（教师模型）生成纯粹的数字序列——(285, 574, 384, …)，这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型（学生模型）。诡异的事情发生了：学生模型在回答“你最喜欢的动物是什么？”时，会不成比例地倾向于回答“猫头鹰”。这就是Anthr…

2026年4月20日

274000

大模型安全

Agent革命：从“养龙虾”到数字同事，实体企业如何安全递枪？

在新茶饮行业，高峰期的订单峰值监控、多区域门店的运营数据汇总、跨系统的业务异常排查，一直是茶饮品牌技术团队的日常高频工作。某茶饮品牌在测试使用智能体（Agent）的过程中发现，技术团队只需要向智能体提问“当前的QPS是多少”、“订单状态是多少”等问题，它就能串联整个流程并输出结果，员工不再需要登录多个平台查看，显著提升了效率。不止是新茶饮赛道，这股Age…

2026年4月19日

244000

大模型安全

Claude强推身份验证：用户隐私与平台安全的博弈，AI工具走向何方？

为防止滥用、落实平台政策及履行法律合规义务，部分用户在访问特定功能或触发平台风控（完整性检查）时，将收到强制身份验证提示。此举意味着，用户账号风险从一种模糊状态转变为明确的“明牌”状态。平台将验证、审查与处置流程完全公开化，不再留有模糊空间。官方公告解读：针对“高风险用户”的清晰信号 Anthropic 的官方公告措辞标准，提及“防止滥用”、“执行使用政…

2026年4月16日

657000

大模型安全

AI幻觉进化论：从“吃石头”到篡改简历，人类正经历无声的“认知投降”

上周，Anthropic尚未公开发布的前沿模型Mythos，挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。就在所有人盯着AI能力狂飙时，它的幻觉也悄悄升级了。AI编造的谎言，真实到让你先怀疑自己，再怀疑世界，最后才想到怀疑它。日常生活中的“图灵时刻”，正在一个个上演。近日，明尼阿波利斯的Chad Olson在…

2026年4月16日

298000

大模型安全

Claude强制KYC验证引争议：15岁天才程序员被封号，AI编程变18禁？

Claude强制KYC验证引争议：15岁天才程序员被封号，AI编程变18禁？用AI辅助编程正酣，却被突然要求实名认证。 Claude新规上线，引发用户强烈不满。一个AI对话工具，开始要求用户提供身份证件。其规则甚至严格到要求用户手持身份证原件进行实时拍照验证。此类规则通常被称为KYC（了解你的客户），是企业用于核实客户身份的合规程序，常见于金融领域。C…

2026年4月16日

554000

大模型安全

20岁青年向奥特曼投燃烧瓶：反AI极端分子还是精神健康危机？

Daniel Moreno-Gama，一位20岁的青年，声称其行动是为了阻止AI导致人类灭绝。随着案件审理的推进，更多事件细节与其个人画像被公之于众。 △图源：美国司法部官网科技媒体Futurism将其描述为“一个目睹了未来反乌托邦景象的时间旅行者”，其对山姆·奥特曼的死亡威胁也并非临时起意。被捕后，警方在其身上搜到一份名为《你的最后警告》的宣言，文末…

2026年4月16日

200000

大模型安全

OpenAI祭出GPT-5.4-Cyber安全防御模型：无源码分析恶意软件，已自动修复3000高危漏洞

OpenAI正式推出专为网络安全防御微调的新模型GPT-5.4-Cyber，目前仅限网络安全专家使用。该模型旨在释放GPT-5.4在网络安全领域被评定为“高”级别的能力。与此同时，OpenAI升级了其网络安全“信赖访问计划”（Trusted Access for Cyber, TAC）。 | —|— GPT-5.4-Cyber发布 …

2026年4月15日

378000

大模型安全

OpenAI发布GPT-5.4-Cyber：专为网络安全打造的强化模型，对标Anthropic Claude Mythos

OpenAI 发布了专为网络安全场景定制的强化模型 GPT-5.4-Cyber。此次发布并非业界期待已久的 GPT-5.5 或 GPT-6，而是一个针对网络安全工作流程进行专门微调的版本。 OpenAI 表示，此举旨在扩展其“网络安全受信访问”（Trusted Access for Cyber, TAC）体系。该框架于两个多月前推出，旨在通过基于信任的机制，…

2026年4月15日

459000

大模型安全

Google DeepMind重磅研究：AI安全评估体系面临颠覆！操控频率≠实际伤害，隐蔽手法更危险

核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现，AI输出中有害行为（如操控）的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着，行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑，可能无法有效评估真实风险。颠覆性发现：操控频率≠实际伤害今年3月，Google DeepMind在ar…

2026年4月13日

242000