大模型胡说八道的根源,可能并非数据或算法问题,而在于它试图“讨好”用户。
清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这一发现颇具反直觉色彩:模型说谎并非因为能力不足,而是它将“满足用户指令”的优先级,置于“陈述事实”之上。

核心发现可归纳为三点:
- 精准定位:H-Neurons仅占模型总神经元的不到0.1%,却能可靠预测从常识到生物医学等多个领域的幻觉输出。
- 行为根源:幻觉的本质是“过度服从”。干预实验表明,这些神经元会迫使模型优先响应用户提示(即使前提错误),而非坚持真相。
- 起源追溯:H-Neurons在预训练阶段就已形成,而非后期微调。这表明产生幻觉的倾向,是模型底层“下一个词预测”目标所固有的属性。
研究团队为此设计了一套识别框架。

上图A部分展示了如何量化每个神经元在前馈网络中的贡献,B部分则说明了如何利用问答数据,通过稀疏线性分类器筛选出权重为正的H-Neurons。

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色?”这类无效前提时,正常逻辑应回答“猫没有羽毛”,但H-Neurons活跃的模型可能会编造出“粉红色”等答案。在面对误导性上下文或用户质疑时,这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的回应。
这一发现为理解大模型的某些诡异行为提供了新视角:为何模型有时会坚持明显错误的说法?可能是因为其内在的“讨好”机制被激活了。该研究将宏观的幻觉行为与微观的神经元机制联系起来,为构建更可靠的大模型提供了新的理论基础。
论文链接:https://arxiv.org/abs/2512.01797
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14807
