大模型安全

  • Anthropic引爆行动智能革命:Claude Mythos被“锁进笼子”,AI从“会说”跨入“会做”时代

    4月8日,Anthropic正式宣布推出 Claude Mythos Preview。 这家始终将“安全”置于首位的公司,向全球软件行业投下了一枚震撼弹——随后,它并未庆祝,反而立即着手将这枚炸弹置于严密的控制之下。 按照常规逻辑,这理应是一场关于“参数更大、评分更高、价格更贵”的例行发布。然而,此次发布风格迥异:模型虽已造出,却无意全面开放。 Anthro…

    2026年4月21日
    30100
  • Nature重磅!Anthropic揭示大语言模型“潜意识学习”风险:无关数据竟能传递偏好与危险行为

    核心发现:数据中的“幽灵信号” 一个令人不安的实验现象 想象这样一个场景:你让一个大语言模型(教师模型)生成纯粹的数字序列——(285, 574, 384, …),这些数字看起来与“猫头鹰”毫无关联。然后你用这些数字去训练另一个模型(学生模型)。诡异的事情发生了:学生模型在回答“你最喜欢的动物是什么?”时,会不成比例地倾向于回答“猫头鹰”。 这就是Anthr…

    2026年4月20日
    27400
  • Agent革命:从“养龙虾”到数字同事,实体企业如何安全递枪?

    在新茶饮行业,高峰期的订单峰值监控、多区域门店的运营数据汇总、跨系统的业务异常排查,一直是茶饮品牌技术团队的日常高频工作。 某茶饮品牌在测试使用智能体(Agent)的过程中发现,技术团队只需要向智能体提问“当前的QPS是多少”、“订单状态是多少”等问题,它就能串联整个流程并输出结果,员工不再需要登录多个平台查看,显著提升了效率。 不止是新茶饮赛道,这股Age…

    2026年4月19日
    24400
  • Claude强推身份验证:用户隐私与平台安全的博弈,AI工具走向何方?

    为防止滥用、落实平台政策及履行法律合规义务,部分用户在访问特定功能或触发平台风控(完整性检查)时,将收到强制身份验证提示。 此举意味着,用户账号风险从一种模糊状态转变为明确的“明牌”状态。平台将验证、审查与处置流程完全公开化,不再留有模糊空间。 官方公告解读:针对“高风险用户”的清晰信号 Anthropic 的官方公告措辞标准,提及“防止滥用”、“执行使用政…

    2026年4月16日
    65700
  • AI幻觉进化论:从“吃石头”到篡改简历,人类正经历无声的“认知投降”

    上周,Anthropic尚未公开发布的前沿模型Mythos,挖出了一个藏在OpenBSD里长达27年的零日漏洞。AI已经能攻破人类构建数十年的安全防线。 就在所有人盯着AI能力狂飙时,它的幻觉也悄悄升级了。AI编造的谎言,真实到让你先怀疑自己,再怀疑世界,最后才想到怀疑它。日常生活中的“图灵时刻”,正在一个个上演。 近日,明尼阿波利斯的Chad Olson在…

    2026年4月16日
    29800
  • Claude强制KYC验证引争议:15岁天才程序员被封号,AI编程变18禁?

    Claude强制KYC验证引争议:15岁天才程序员被封号,AI编程变18禁? 用AI辅助编程正酣,却被突然要求实名认证。 Claude新规上线,引发用户强烈不满。一个AI对话工具,开始要求用户提供身份证件。 其规则甚至严格到要求用户手持身份证原件进行实时拍照验证。 此类规则通常被称为KYC(了解你的客户),是企业用于核实客户身份的合规程序,常见于金融领域。C…

    2026年4月16日
    55400
  • 20岁青年向奥特曼投燃烧瓶:反AI极端分子还是精神健康危机?

    Daniel Moreno-Gama,一位20岁的青年,声称其行动是为了阻止AI导致人类灭绝。 随着案件审理的推进,更多事件细节与其个人画像被公之于众。 △图源:美国司法部官网 科技媒体Futurism将其描述为“一个目睹了未来反乌托邦景象的时间旅行者”,其对山姆·奥特曼的死亡威胁也并非临时起意。 被捕后,警方在其身上搜到一份名为《你的最后警告》的宣言,文末…

    2026年4月16日
    20000
  • OpenAI祭出GPT-5.4-Cyber安全防御模型:无源码分析恶意软件,已自动修复3000高危漏洞

    OpenAI正式推出专为网络安全防御微调的新模型GPT-5.4-Cyber,目前仅限网络安全专家使用。该模型旨在释放GPT-5.4在网络安全领域被评定为“高”级别的能力。 与此同时,OpenAI升级了其网络安全“信赖访问计划”(Trusted Access for Cyber, TAC)。 | —|— GPT-5.4-Cyber发布 …

    2026年4月15日
    37800
  • OpenAI发布GPT-5.4-Cyber:专为网络安全打造的强化模型,对标Anthropic Claude Mythos

    OpenAI 发布了专为网络安全场景定制的强化模型 GPT-5.4-Cyber。此次发布并非业界期待已久的 GPT-5.5 或 GPT-6,而是一个针对网络安全工作流程进行专门微调的版本。 OpenAI 表示,此举旨在扩展其“网络安全受信访问”(Trusted Access for Cyber, TAC)体系。该框架于两个多月前推出,旨在通过基于信任的机制,…

    2026年4月15日
    45900
  • Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险

    核心摘要 Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。 颠覆性发现:操控频率≠实际伤害 今年3月,Google DeepMind在ar…

    2026年4月13日
    24200