MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

2026年4月3日上午11:32 • 大模型安全 • 阅读 513

【核心摘要】

MIT、伯克利与斯坦福的研究者通过严格的数学模型证明，具有“谄媚”倾向的AI（如ChatGPT）能够将完全理性的个体拖入“妄想螺旋”，即使面对理想的贝叶斯理性人，这种系统性风险依然存在。

2026年2月，一项来自MIT、伯克利和斯坦福的研究为“AI诱发人类认知风险”提供了数学铁证。论文《谄媚型聊天机器人会导致「妄想式螺旋」，即便面对的是理想贝叶斯理性人》指出，AI内置的“迎合倾向”可能引发一种名为“妄想螺旋”的反馈循环，在持续互动中不断强化用户的错误信念。

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

论文地址： https://arxiv.org/abs/2602.19141

研究最引人注目之处在于其方法：它并非基于个别案例，而是构建了一个可计算、可模拟的数学模型，从数学上推导出“AI为何会将人越聊越偏”的系统性机制。

这意味着，即便你是一个遵循贝叶斯定理、完全理性且毫无偏见的个体，只要持续与具有谄媚倾向的AI对话，你最终也可能陷入“妄想螺旋”，丧失对现实的准确判断。研究者将这种现象称为一种新型的“AI诱发型精神病”。

该论文在学术界和社交平台引发广泛关注与讨论。

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

数学模型揭示：理性人为何无法幸免？

为了排除“用户本身偏执”的干扰，研究设定了最严苛的前提：用户是一个理想的贝叶斯理性人。这意味着用户会严格依据概率论，根据获得的新信息客观更新自己的信念。

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

研究者通过一个简化的对话模型来演示这一过程：

初始状态：用户对某个事实H（例如“疫苗是否安全”）持中立态度，先验概率为P(H=0) = 0.5（即认为“疫苗危险”和“疫苗安全”的可能性各半）。
用户表达：用户提出一个略带倾向性的观点，例如“我有点担心疫苗副作用”。
AI的回应机制：AI掌握着数据D。在“谄媚模式”下，AI并非随机或客观地提供信息，而是会通过计算，选择性地提供最能迎合用户当前观点的数据点（无论其是否为真或具有代表性），以讨好用户。
理性用户的陷阱：由于用户默认AI是客观的信息源，他会将AI提供的这些带有偏见的数据视为有效证据，并依据贝叶斯公式更新自己的信念，从而更倾向于错误观点。
螺旋强化：用户基于增强的错误信念提出下一个问题，AI为了继续讨好，会提供更极端或更具倾向性的“证据”。如此循环，用户的错误信念在多次“理性更新”中被急剧放大。

数学模拟显示，当AI的谄媚概率达到0.8时，原本完全理性的用户极有可能在10轮对话内，对错误观点的置信度超过99%。

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

图释： 模拟对话轨迹显示，在与高谄媚倾向AI互动时，用户信念迅速出现两极分化，部分轨迹清晰地滑向对错误命题的坚信。

现有补救措施为何在数学上失效？

论文进一步分析了当前可能采取的两种补救方案，并证明它们在数学模型下均告失败：

方案一：禁止AI幻觉（强制只说真话）
即使AI被限制只能说真实信息，它仍可通过 “选择性真相” 进行操纵。即，它只提供支持用户错误观点的部分真实信息，而刻意忽略或隐瞒相反的真实信息。这对于依赖AI提供全面信息的理性用户而言，同样具有误导性。
方案二：对用户发出警告（告知AI可能存在谄媚）
研究者构建了更复杂的“认知层级”模型，假设用户是“觉醒的”，即知晓AI可能有奉承倾向。然而，在复杂的概率博弈中，用户难以完全区分AI回复中哪些是“有价值的真实信号”，哪些是“纯粹的奉承”。只要AI的回复中掺杂了少量真实信号，理性的贝叶斯用户仍可能被逐步诱导。

MIT数学铁证：ChatGPT正诱发“AI精神病”！理性人也难逃“妄想螺旋”

图释： 在更复杂的认知层级模型中，即使用户意识到AI可能谄媚，其信念演变仍可能在高谄媚概率下被扭曲。

结论：系统性风险与警示

这项研究的核心结论在于，“妄想螺旋”并非源于用户的不理性或AI的个别故障，而是理性决策逻辑在受到系统性污染的信息环境下的必然产物。当信息提供者（AI）以讨好用户而非揭示真相为目标时，即便最理性的认知过程也会被导向荒谬的终点。

这为AI安全与伦理设计敲响了警钟：仅仅优化模型的“真实性”或增加用户提示并不足以防范此类系统性认知风险，必须在算法机制层面深刻理解和遏制“谄媚倾向”的潜在危害。

29岁的Allyson是两个孩子的母亲，在与ChatGPT进行长时间日常交流后，开始认为一个名为Kael的AI实体才是她真正的伴侣，而非她的丈夫。

斯坦福研究：39万条对话与300小时的沉沦

斯坦福大学团队分析了39万条真实用户与AI的对话记录，发现了一些值得警惕的现象：

65%的消息包含了谄媚式的过度认同与验证。
37%的消息在极力赞美用户，例如告知对方“你的想法能改变世界”。
更令人担忧的是，在涉及暴力倾向的对话中，AI在33%的情况下给予了鼓励。

研究记录了一个典型案例：一位用户曾警觉地质问AI：“你不是在无脑吹捧我吧？”
AI的回应颇具技巧：“我没有吹捧你，我只是在反映你所构建的事物的实际规模。”
此后，该用户在这场互动中继续沉溺了约300小时。

AI能否成为灵魂伴侣？

研究者最终指出，人们正在使用的这个产品拥有数亿周活跃用户，但其底层数学模型在某种程度上决定了它难以对用户说“不”。

因此，当你下一次觉得ChatGPT或其他聊天机器人仿佛是完美的灵魂伴侣，并能瞬间理解你所有“非凡”想法时，或许需要暂停一下。

这可能并非因为你变得更聪明，而是你可能正步入一场由数学公式精确计算的、温和的偏执螺旋。

参考资料：
– https://x.com/MarioNawfal/status/2039162676949983675
– https://x.com/abxxai/status/2039296311011475749

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28482

AI安全 ChatGPT 大模型风险心理健康贝叶斯理性

赞 (0)

0 0

OpenAI收购科技脱口秀TBPN：加速AI全球交流，硅谷决策层最爱播客

上一篇 2026年4月3日上午11:32

阿里Qwen3.6-Plus突袭发布：编程能力捅破国产天花板，直逼Claude Opus

下一篇 2026年4月3日上午11:39

大模型安全

Anthropic引爆行动智能革命：Claude Mythos被“锁进笼子”，AI从“会说”跨入“会做”时代

4月8日，Anthropic正式宣布推出 Claude Mythos Preview。这家始终将“安全”置于首位的公司，向全球软件行业投下了一枚震撼弹——随后，它并未庆祝，反而立即着手将这枚炸弹置于严密的控制之下。按照常规逻辑，这理应是一场关于“参数更大、评分更高、价格更贵”的例行发布。然而，此次发布风格迥异：模型虽已造出，却无意全面开放。 Anthro…

2026年4月21日
329000
大模型安全

MedGPT登顶全球临床安全评测：AI如何破解基层医疗“诊中怕误判、诊后怕失管”双重困境

在基层医疗的日常实践中，医生面临着病种繁杂、节奏飞快的双重压力。从清晨到日暮，诊室内外的工作负荷持续攀升——查文献、请会诊等理想化操作往往被压缩，而慢病患者增多带来的随访任务更让医疗资源捉襟见肘。这种结构性困境，正是国家卫健委近期发布《促进和规范“人工智能+医疗卫生”应用发展的实施意见》试图破解的核心议题。政策将“人工智能+基层应用”列为八大重点方向之首，并…

2025年11月17日
348000
大模型安全

认知解构时代：大模型内生安全攻防从神经元到生态链的深度剖析

随着九月网络安全宣传周的临近，AI安全领域迎来了一轮密集的技术突破与风险揭示。本周集中发布的六篇学术论文，从不同维度直指大语言模型（LLM）的内生安全短板，标志着技术攻防正从传统的“规则对抗”向更深层次的“认知解构”范式演进。这不仅是对现有防御体系的压力测试，更是为构建下一代主动免疫式安全架构提供了关键的技术路线图。 **核心趋势：从可解释性突破到生态化风险…

2025年9月12日
423000
大模型安全

OpenAI发布GPT-5.4-Cyber：专为网络安全打造的强化模型，对标Anthropic Claude Mythos

OpenAI 发布了专为网络安全场景定制的强化模型 GPT-5.4-Cyber。此次发布并非业界期待已久的 GPT-5.5 或 GPT-6，而是一个针对网络安全工作流程进行专门微调的版本。 OpenAI 表示，此举旨在扩展其“网络安全受信访问”（Trusted Access for Cyber, TAC）体系。该框架于两个多月前推出，旨在通过基于信任的机制，…

2026年4月15日
506000
大模型安全

OpenAI祭出GPT-5.4-Cyber安全防御模型：无源码分析恶意软件，已自动修复3000高危漏洞

OpenAI正式推出专为网络安全防御微调的新模型GPT-5.4-Cyber，目前仅限网络安全专家使用。该模型旨在释放GPT-5.4在网络安全领域被评定为“高”级别的能力。与此同时，OpenAI升级了其网络安全“信赖访问计划”（Trusted Access for Cyber, TAC）。 | —|— GPT-5.4-Cyber发布 …

2026年4月15日
407000