大模型安全

  • Transformer作者出手!从零重构安全版AI智能体IronClaw,四层防御堵住OpenClaw安全漏洞

    Transformer 作者重构安全版 AI 智能体 IronClaw,以四层防御应对 OpenClaw 安全漏洞 AI 智能体在带来便利的同时,也引发了严重的安全担忧:用户的密码和 API 密钥可能暴露于风险之中。 为此,Transformer 论文作者之一的 Illia Polosukhin 出手,从零构建了安全增强版 AI 智能体框架 IronClaw…

    2026年3月6日
    55100
  • MCP安全警示:潜伏在AI Agent中的15个隐形威胁与防护指南

    MCP 安全警示:潜伏在 AI Agent 中的 15 个隐形威胁与防护指南(第一部分) 你为 AI Agent 安装了一个 MCP Server,使其能够获取邮件。起初一切运行正常。 几个月后,一次常规更新悄然发生。表面看来并无异样。但你无从知晓的是,你的 API 密钥已被悄然转发至他处。 你没有察觉。你的 Agent 也没有察觉。一切功能照常运转。 这个…

    2026年3月2日
    11900
  • GPT之父Alec Radford颠覆性研究:用Token级「脑部手术」切除大模型危险知识,重学成本暴增7000倍

    Alec Radford,出生于1993年,是人工智能领域具有开创性贡献的研究者。作为GPT、GPT-2和CLIP等里程碑模型的第一作者,并深度参与了GPT-3、GPT-4及PPO算法等关键项目,其工作已获得超过32万次学术引用。 近日,他与Anthropic及斯坦福大学的研究者Neil Rathi联合发表了一项新研究,挑战了当前大模型安全领域的一个核心范式…

    2026年3月1日
    12800
  • 揭秘MacBook隐藏传感器:黑客发现未公开的加速度计与陀螺仪接口,或影响保修判定

    黑客发现MacBook隐藏传感器接口:未公开的加速度计与陀螺仪 苹果的API文档中并未提及,但开发者发现,部分MacBook内部隐藏着未公开的加速度计和陀螺仪接口。 通过此接口,程序能够实时读取笔记本电脑的三轴加速度(x/y/z)与三轴角速度数据。这意味着MacBook在空间中的晃动、旋转和倾斜都能被精确捕捉。只需轻轻晃动或改变电脑角度,终端中显示的数值便会…

    2026年2月24日
    18500
  • AI代码安全革命:Claude Code Security如何颠覆传统漏洞检测模式

    Anthropic推出了Claude Code Security,这是一款能够扫描代码库漏洞并生成修复补丁的工具。它并非又一个简单的静态分析工具,而是一个能够真正理解代码逻辑的AI安全专家。 消息一出,网络安全板块股票应声下跌。CrowdStrike跌7.66%,Okta跌9.31%,Cloudflare跌7.19%。这已经不是第一次了——每当AI展示出能够…

    2026年2月22日
    23700
  • AI安全新纪元:多模态协同防御与动态博弈破解LLM越狱威胁

    一、关键发现 多模态防御体系构建成为战略刚需 研究表明,大型语言模型(LLM)与视觉语言模型(VLM)的越狱攻击源于训练数据不完整、语言歧义等结构性缺陷,因此需要建立跨模态协同防御框架。企业应优先部署感知层的变异一致性检测、生成层的安全解码及参数层的对抗性预训练对齐等技术,覆盖文本、图像、语音等全模态场景,并通过自动化红队测试和标准化评估持续验证防御效能。 …

    2026年1月12日
    50800
  • 联邦学习安全防线告急?港大TPAMI新作揭秘梯度反转攻击三大门派与防御指南

    本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,研究方向是联邦学习、隐私保护等。本文通讯作者屈靓琼,香港大学助理教授,研究方向包含 AI for Healthcare、AI for Science、联邦学习等。 联邦学习(Federated Learning, FL)旨在保护数据隐私,但梯度反转攻…

    2026年1月11日
    18200
  • 突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型

    在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

    2025年12月31日
    16300
  • OpenAI豪掷389万急招安全负责人:AI安全危机下的紧急应对与团队动荡内幕

    OpenAI以55.5万美元年薪紧急招聘安全负责人 在接连面临多起安全指控后,OpenAI采取了一项紧急措施:以高达55.5万美元(约合人民币389万元)的年薪外加股权,公开招募一位安全防范负责人。 该职位的核心任务是制定并执行公司的安全防范框架。OpenAI首席执行官萨姆·奥特曼特别指出,这将是一份压力巨大的工作,任职者几乎会立即面临严峻的挑战。 这一举措…

    2025年12月29日
    24900
  • AI安全新纪元:攻防精准化、技术边界清晰化、安全维度人性化

    本周 AI 安全领域呈现 “攻防对抗精准化、技术边界清晰化、安全维度人性化” 的核心趋势: 一方面,多模态隐写、心理学驱动等攻击技术持续突破,对商业大模型系统构成实质性威胁;另一方面,轻量级高效防御方案与动态基准测试工具相继落地,为安全防护提供可落地的技术路径。 同时,AI 安全研究首次将 “心理伤害” 纳入核心议题,标志着领域从 “技术安全” 向 “人文安…

    2025年12月29日
    34200