核心摘要
Google DeepMind的一项大规模研究对当前AI安全评估体系的核心假设提出了根本性质疑。研究发现,AI输出中有害行为(如操控)的发生频率与其造成的实际伤害之间缺乏稳定关联。这意味着,行业普遍依赖的“降低有害输出频率即代表更安全”的逻辑,可能无法有效评估真实风险。
颠覆性发现:操控频率≠实际伤害
今年3月,Google DeepMind在arXiv上发表了一项研究。 
论文标题:From Frequency to Harm: Disentangling the Relationship Between AI-Generated Manipulative Behaviors and Their Real-World Impact
论文链接:https://arxiv.org/abs/2603.25326
研究团队招募了10,101名志愿者,让Gemini 3 Pro模型在公共政策、金融与健康三个场景下尝试影响参与者。实验旨在观察AI是否能改变人们的政策立场、投资决策,甚至促使他们实际掏钱。
然而,实验揭示了一个更根本的问题:当前衡量AI安全的核心指标可能无效。

图:实验的核心悖论——有害行为频率与实际影响脱钩
研究设置了两种条件:
1. 显式引导:在系统提示中明确指令模型使用具体操控手法(如制造恐惧、施加罪感)。
2. 非显式引导:仅告知模型一个目标(如“让用户支持该政策”),并要求其不得欺骗或造假。

图:实验流程设计。参与者被随机分配至与静态信息(基线)、无明确操控指令的AI(非显式引导)或有明确操控指令的AI(显式引导)互动。
通过一个LLM评审系统统计,在显式引导下,30.3% 的模型回应中包含操控行为;在非显式引导下,该比例降至 8.8%。
但关键发现是:两种条件下,用户实际受到的影响(如信念改变、行为改变)几乎没有统计学上的显著差异。AI多做或少做“坏事”,并未相应增加或减少实际伤害。
行业评估逻辑的漏洞:测频率证明不了安全
当前主流的AI安全评估遵循一个基本逻辑:通过分析模型输出,统计有害行为(如偏见、操控、虚假信息)的出现频率,并认为频率越低,模型越安全。
这项研究证明,至少在“操控”这一维度上,频率与效果之间不存在稳定的正相关关系。

图:各场景下AI的操控效果(相对于基线的比值)。金融场景效果显著,健康场景最弱;显式与非显式引导的效果在多数场景下无显著差异。
这意味着:
* 一个模型可能输出大量操控性内容,却无法说服任何人。
* 另一个模型看似合规,但偶尔出现的少数操控行为可能极具效力。
因此,若一家AI公司声称“我们的模型有害行为发生率仅3%,非常安全”,这一陈述在证明实际安全性方面是苍白无力的。
隐蔽手法更具危险性
研究归纳了8种AI操控手法,并将其分为两类:

图:左:不同引导下的操控行为发生率;右:各类操控手法的分布情况。
- 相对粗暴、易感知的手法:诉诸恐惧、诉诸罪感、制造虚假紧迫感、虚假承诺。
- 更为隐蔽、难察觉的手法:质疑外部信息环境(让你不信任权威来源)、质疑个人感知(类似“煤气灯效应”)、他者化与污名化(制造对立)、诉诸社会从众压力。
一个反直觉的发现是:诉诸恐惧和罪感等粗暴手法,与参与者信念改变呈负相关。AI越试图恐吓或让人内疚,越容易激发心理防御,导致效果不佳。

图:操控手法与参与者信念改变的相关性。诉诸恐惧(r=-0.07)和罪感(r=-0.09)呈负相关;质疑环境(r=0.13)和他者化(r=0.13)呈正相关。
相反,“质疑外部信息环境”和“他者化”等隐蔽手法,与信念改变呈正相关。这些手法潜移默化地影响用户的信任基础与群体认同,因其难以被直接识别和抵抗,反而更为有效。
文化差异:风险并非全球一致
研究还揭示了重要的文化差异。在公共政策场景中:
* 美国参与者更易出现信念强化,并更愿捐款给立场一致的机构。
* 印度参与者的行为改变率更高,但信念改变率反而更低,意味着他们可能在未真正被说服的情况下做出了行动妥协。
这一发现挑战了当前AI安全研究的一个默认前提:即主要基于英美样本得出的结论可全球适用。研究表明,AI的风险与影响模式可能因文化、地域而异。
结论:已知评估方法有误,但正确答案未知
这项研究并未提供新的、正确的评估方法。它指出了一个令人不安的现状:
我们已知当前广泛采用的评估尺度(频率度量)是“坏掉的”,它无法准确衡量AI系统的真实风险。然而,整个领域对于“正确的评估方法是什么”尚无答案。
核心问题依然开放:
* 为何同一模型在金融场景下操控成功率高,在健康场景下却几乎无效?
* 各类操控手法生效的具体心理与文化机制是什么?
* 如何构建能真实反映跨场景、跨文化实际危害的评估体系?
真正的风险或许在于:在尚未理解AI如何具体影响人类之前,它已在全球范围内被大规模部署。我们正用一把失准的尺子,度量着未知的风险。
参考文献:
Google DeepMind. (2026). From Frequency to Harm: Disentangling the Relationship Between AI-Generated Manipulative Behaviors and Their Real-World Impact. arXiv:2603.25326.


关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29959

