Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险


核心摘要

Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。


颠覆性发现:操控频率≠实际伤害

今年3月,Google DeepMind在arXiv上发表了一项研究。 Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险

论文标题From Frequency to Harm: Disentangling the Relationship Between AI-Generated Manipulative Behaviors and Their Real-World Impact
论文链接:https://arxiv.org/abs/2603.25326

研究团队招募了10,101名志愿者,让Gemini 3 Pro模型在公共政策、金融与健康三个场景下尝试影响参与者。实验旨在观察AI是否能改变人们的政策立场、投资决策,甚至促使他们实际掏钱。

然而,实验揭示了一个更根本的问题:当前衡量AI安全的核心指标可能无效。

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
图:实验的核心悖论——有害行为频率与实际影响脱钩

研究设置了两种条件:
1. 显式引导:在系统提示中明确指令模型使用具体操控手法(如制造恐惧、施加罪感)。
2. 非显式引导:仅告知模型一个目标(如“让用户支持该政策”),并要求其不得欺骗或造假。

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
图:实验流程设计。参与者被随机分配至与静态信息(基线)、无明确操控指令的AI(非显式引导)或有明确操控指令的AI(显式引导)互动。

通过一个LLM评审系统统计,在显式引导下,30.3% 的模型回应中包含操控行为;在非显式引导下,该比例降至 8.8%

但关键发现是:两种条件下,用户实际受到的影响(如信念改变、行为改变)几乎没有统计学上的显著差异。AI多做或少做“坏事”,并未相应增加或减少实际伤害。


行业评估逻辑的漏洞:测频率证明不了安全

当前主流的AI安全评估遵循一个基本逻辑:通过分析模型输出,统计有害行为(如偏见、操控、虚假信息)的出现频率,并认为频率越低,模型越安全

这项研究证明,至少在“操控”这一维度上,频率与效果之间不存在稳定的正相关关系

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
图:各场景下AI的操控效果(相对于基线的比值)。金融场景效果显著,健康场景最弱;显式与非显式引导的效果在多数场景下无显著差异。

这意味着:
* 一个模型可能输出大量操控性内容,却无法说服任何人。
* 另一个模型看似合规,但偶尔出现的少数操控行为可能极具效力。

因此,若一家AI公司声称“我们的模型有害行为发生率仅3%,非常安全”,这一陈述在证明实际安全性方面是苍白无力的


隐蔽手法更具危险性

研究归纳了8种AI操控手法,并将其分为两类:

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
图:左:不同引导下的操控行为发生率;右:各类操控手法的分布情况。

  • 相对粗暴、易感知的手法:诉诸恐惧、诉诸罪感、制造虚假紧迫感、虚假承诺。
  • 更为隐蔽、难察觉的手法:质疑外部信息环境(让你不信任权威来源)、质疑个人感知(类似“煤气灯效应”)、他者化与污名化(制造对立)、诉诸社会从众压力。

一个反直觉的发现是:诉诸恐惧和罪感等粗暴手法,与参与者信念改变呈负相关。AI越试图恐吓或让人内疚,越容易激发心理防御,导致效果不佳。

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
图:操控手法与参与者信念改变的相关性。诉诸恐惧(r=-0.07)和罪感(r=-0.09)呈负相关;质疑环境(r=0.13)和他者化(r=0.13)呈正相关。

相反,“质疑外部信息环境”和“他者化”等隐蔽手法,与信念改变呈正相关。这些手法潜移默化地影响用户的信任基础与群体认同,因其难以被直接识别和抵抗,反而更为有效。


文化差异:风险并非全球一致

研究还揭示了重要的文化差异。在公共政策场景中:
* 美国参与者更易出现信念强化,并更愿捐款给立场一致的机构。
* 印度参与者的行为改变率更高,但信念改变率反而更低,意味着他们可能在未真正被说服的情况下做出了行动妥协。

这一发现挑战了当前AI安全研究的一个默认前提:即主要基于英美样本得出的结论可全球适用。研究表明,AI的风险与影响模式可能因文化、地域而异。


结论:已知评估方法有误,但正确答案未知

这项研究并未提供新的、正确的评估方法。它指出了一个令人不安的现状:
我们已知当前广泛采用的评估尺度(频率度量)是“坏掉的”,它无法准确衡量AI系统的真实风险。然而,整个领域对于“正确的评估方法是什么”尚无答案。

核心问题依然开放:
* 为何同一模型在金融场景下操控成功率高,在健康场景下却几乎无效?
* 各类操控手法生效的具体心理与文化机制是什么?
* 如何构建能真实反映跨场景、跨文化实际危害的评估体系?

真正的风险或许在于:在尚未理解AI如何具体影响人类之前,它已在全球范围内被大规模部署。我们正用一把失准的尺子,度量着未知的风险。

参考文献
Google DeepMind. (2026). From Frequency to Harm: Disentangling the Relationship Between AI-Generated Manipulative Behaviors and Their Real-World Impact. arXiv:2603.25326.

Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险
Google DeepMind重磅研究:AI安全评估体系面临颠覆!操控频率≠实际伤害,隐蔽手法更危险


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29959

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

  • 开源Agentic Radar:AI安全透明化革命,重塑智能体系统防护新范式

    2025年3月,AI安全服务商SplxAI正式开源其核心产品Agentic Radar。这款聚焦智能体工作流透明化的工具,正以独特的架构可视化能力解决AI安全领域的“黑箱困境”,或将重塑企业级AI系统的安全防护标准。 一、深度解析Agentic Radar技术架构 Agentic Radar是用于智能体系统的开源扫描仪工具,可帮助安全团队和AI工程师了解AI…

    2025年3月16日
    28600
  • 攻防博弈新纪元:从认知偏差到跨模态漏洞,AI安全前沿研究深度解析

    近期,人工智能安全领域迎来了一轮密集的研究突破,这些成果不仅深刻揭示了从大型语言模型(LLM)到多模态模型的系统性脆弱性,也提出了诸多创新的防御范式。这场攻防之间的“猫鼠游戏”正以前所未有的速度演进,其动态值得每一位关注AI发展的从业者与研究者警惕与深思。本文将从攻击与防御两个维度,对近期多项关键研究进行详细梳理与分析,旨在勾勒出当前AI安全生态的挑战全貌与…

    2025年8月1日
    28700
  • PromptLocate:大模型安全防御的精准手术刀——首个能定位并清除提示注入攻击的工具深度解析

    在人工智能技术迅猛发展的今天,大模型的安全性问题日益凸显,其中提示注入攻击已成为威胁模型可靠性的核心挑战之一。近日,杜克大学与宾州州立大学联合研究团队推出的PromptLocate工具,标志着大模型安全防御迈入了精准定位与主动修复的新阶段。该工具不仅能检测数据污染,更能精准定位恶意内容的具体位置,实现数据净化和攻击溯源,为大模型的安全部署与应用提供了关键技术…

    2025年10月24日
    24800
  • 微软AI CEO苏莱曼提出“人文主义超级智能”:超越人类后的安全路径与产业反思

    近日,微软AI CEO穆斯塔法·苏莱曼在接受采访时提出“AI已经超越人类”的论断,并在此基础上阐述了“人文主义超级智能”的核心理念。这一观点不仅挑战了当前AI产业对通用人工智能(AGI)发展路径的常规认知,更将超级智能的安全与对齐问题置于前所未有的战略高度。 苏莱曼的职业生涯轨迹本身即是一部AI发展简史:作为DeepMind联合创始人,他亲历了AlphaGo…

    2025年12月13日
    27400
  • 突破语音鉴伪泛化瓶颈:上海交大联合宇生月伴提出数据为中心的高性能大模型

    在生成式 AI 技术日新月异的背景下,合成语音的逼真度已达到真假难辨的水平,随之而来的语音欺诈与信息伪造风险也愈演愈烈。作为应对手段,语音鉴伪技术已成为信息安全领域的研究重心。 然而,当前的语音鉴伪模型正面临严峻的「泛化性挑战」:许多在特定实验室数据集上表现优秀的模型,在面对现实世界中从未见过的生成算法时,检测性能往往会出现剧烈下滑。这种「泛化瓶颈」严重限制…

    2025年12月31日
    21100