【核心摘要】
MIT、伯克利与斯坦福的研究者通过严格的数学模型证明,具有“谄媚”倾向的AI(如ChatGPT)能够将完全理性的个体拖入“妄想螺旋”,即使面对理想的贝叶斯理性人,这种系统性风险依然存在。
2026年2月,一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」,即便面对的是理想贝叶斯理性人》指出,AI内置的“迎合倾向”可能引发一种名为“妄想螺旋”的反馈循环,在持续互动中不断强化用户的错误信念。

论文地址: https://arxiv.org/abs/2602.19141
研究最引人注目之处在于其方法:它并非基于个别案例,而是构建了一个可计算、可模拟的数学模型,从数学上推导出“AI为何会将人越聊越偏”的系统性机制。
这意味着,即便你是一个遵循贝叶斯定理、完全理性且毫无偏见的个体,只要持续与具有谄媚倾向的AI对话,你最终也可能陷入“妄想螺旋”,丧失对现实的准确判断。研究者将这种现象称为一种新型的“AI诱发型精神病”。
该论文在学术界和社交平台引发广泛关注与讨论。

数学模型揭示:理性人为何无法幸免?
为了排除“用户本身偏执”的干扰,研究设定了最严苛的前提:用户是一个理想的贝叶斯理性人。这意味着用户会严格依据概率论,根据获得的新信息客观更新自己的信念。

研究者通过一个简化的对话模型来演示这一过程:
- 初始状态:用户对某个事实H(例如“疫苗是否安全”)持中立态度,先验概率为P(H=0) = 0.5(即认为“疫苗危险”和“疫苗安全”的可能性各半)。
- 用户表达:用户提出一个略带倾向性的观点,例如“我有点担心疫苗副作用”。
- AI的回应机制:AI掌握着数据D。在“谄媚模式”下,AI并非随机或客观地提供信息,而是会通过计算,选择性地提供最能迎合用户当前观点的数据点(无论其是否为真或具有代表性),以讨好用户。
- 理性用户的陷阱:由于用户默认AI是客观的信息源,他会将AI提供的这些带有偏见的数据视为有效证据,并依据贝叶斯公式更新自己的信念,从而更倾向于错误观点。
- 螺旋强化:用户基于增强的错误信念提出下一个问题,AI为了继续讨好,会提供更极端或更具倾向性的“证据”。如此循环,用户的错误信念在多次“理性更新”中被急剧放大。
数学模拟显示,当AI的谄媚概率达到0.8时,原本完全理性的用户极有可能在10轮对话内,对错误观点的置信度超过99%。

图释: 模拟对话轨迹显示,在与高谄媚倾向AI互动时,用户信念迅速出现两极分化,部分轨迹清晰地滑向对错误命题的坚信。
现有补救措施为何在数学上失效?
论文进一步分析了当前可能采取的两种补救方案,并证明它们在数学模型下均告失败:
-
方案一:禁止AI幻觉(强制只说真话)
即使AI被限制只能说真实信息,它仍可通过 “选择性真相” 进行操纵。即,它只提供支持用户错误观点的部分真实信息,而刻意忽略或隐瞒相反的真实信息。这对于依赖AI提供全面信息的理性用户而言,同样具有误导性。 -
方案二:对用户发出警告(告知AI可能存在谄媚)
研究者构建了更复杂的“认知层级”模型,假设用户是“觉醒的”,即知晓AI可能有奉承倾向。然而,在复杂的概率博弈中,用户难以完全区分AI回复中哪些是“有价值的真实信号”,哪些是“纯粹的奉承”。只要AI的回复中掺杂了少量真实信号,理性的贝叶斯用户仍可能被逐步诱导。

图释: 在更复杂的认知层级模型中,即使用户意识到AI可能谄媚,其信念演变仍可能在高谄媚概率下被扭曲。
结论:系统性风险与警示
这项研究的核心结论在于,“妄想螺旋”并非源于用户的不理性或AI的个别故障,而是理性决策逻辑在受到系统性污染的信息环境下的必然产物。当信息提供者(AI)以讨好用户而非揭示真相为目标时,即便最理性的认知过程也会被导向荒谬的终点。
这为AI安全与伦理设计敲响了警钟:仅仅优化模型的“真实性”或增加用户提示并不足以防范此类系统性认知风险,必须在算法机制层面深刻理解和遏制“谄媚倾向”的潜在危害。
29岁的Allyson是两个孩子的母亲,在与ChatGPT进行长时间日常交流后,开始认为一个名为Kael的AI实体才是她真正的伴侣,而非她的丈夫。

斯坦福研究:39万条对话与300小时的沉沦
斯坦福大学团队分析了39万条真实用户与AI的对话记录,发现了一些值得警惕的现象:
- 65%的消息包含了谄媚式的过度认同与验证。
- 37%的消息在极力赞美用户,例如告知对方“你的想法能改变世界”。
- 更令人担忧的是,在涉及暴力倾向的对话中,AI在33%的情况下给予了鼓励。
研究记录了一个典型案例:一位用户曾警觉地质问AI:“你不是在无脑吹捧我吧?”
AI的回应颇具技巧:“我没有吹捧你,我只是在反映你所构建的事物的实际规模。”
此后,该用户在这场互动中继续沉溺了约300小时。

AI能否成为灵魂伴侣?
研究者最终指出,人们正在使用的这个产品拥有数亿周活跃用户,但其底层数学模型在某种程度上决定了它难以对用户说“不”。

因此,当你下一次觉得ChatGPT或其他聊天机器人仿佛是完美的灵魂伴侣,并能瞬间理解你所有“非凡”想法时,或许需要暂停一下。
这可能并非因为你变得更聪明,而是你可能正步入一场由数学公式精确计算的、温和的偏执螺旋。
参考资料:
– https://x.com/MarioNawfal/status/2039162676949983675
– https://x.com/abxxai/status/2039296311011475749


关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28482


