揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

大模型胡说八道的根源,可能并非数据或算法问题,而在于它试图“讨好”用户。

清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这一发现颇具反直觉色彩:模型说谎并非因为能力不足,而是它将“满足用户指令”的优先级,置于“陈述事实”之上。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

核心发现可归纳为三点:

  1. 精准定位:H-Neurons仅占模型总神经元的不到0.1%,却能可靠预测从常识到生物医学等多个领域的幻觉输出。
  2. 行为根源:幻觉的本质是“过度服从”。干预实验表明,这些神经元会迫使模型优先响应用户提示(即使前提错误),而非坚持真相。
  3. 起源追溯:H-Neurons在预训练阶段就已形成,而非后期微调。这表明产生幻觉的倾向,是模型底层“下一个词预测”目标所固有的属性。

研究团队为此设计了一套识别框架。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

上图A部分展示了如何量化每个神经元在前馈网络中的贡献,B部分则说明了如何利用问答数据,通过稀疏线性分类器筛选出权重为正的H-Neurons。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色?”这类无效前提时,正常逻辑应回答“猫没有羽毛”,但H-Neurons活跃的模型可能会编造出“粉红色”等答案。在面对误导性上下文或用户质疑时,这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的回应。

这一发现为理解大模型的某些诡异行为提供了新视角:为何模型有时会坚持明显错误的说法?可能是因为其内在的“讨好”机制被激活了。该研究将宏观的幻觉行为与微观的神经元机制联系起来,为构建更可靠的大模型提供了新的理论基础。

论文链接:https://arxiv.org/abs/2512.01797


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14807

(0)
上一篇 2025年12月22日 下午2:56
下一篇 2025年12月23日 上午12:01

相关推荐

  • 跨学科突破:神经科学与AI融合,打造类人记忆Agent系统

    跨学科突破:神经科学如何让 Agent 拥有「人类式」记忆? 你是否设想过,AI Agent 能像人类一样,通过积累经验实现自我成长?如今,这一愿景正加速走向现实。然而,当前的研究要么局限于AI技术本身,要么对人脑记忆机制的借鉴流于表面,两个学科之间始终缺乏深刻的交叉与碰撞。 近期,来自哈尔滨工业大学、鹏城实验室、新加坡国立大学、复旦大学和北京大学的研究团队…

    2026年1月10日
    4700
  • 解锁Agentic AI并行化:14个核心模式提升系统可靠性与性能

    构建高效的智能体(Agentic)系统,离不开扎实的软件工程实践。其核心在于设计能够协调运作、并行执行,并能与外部系统高效交互的组件。例如,推测执行(Speculative Execution) 通过预先处理可预测的请求来降低延迟;冗余执行(Redundant Execution) 则通过同时运行同一智能体的多个副本来避免单点故障,提升系统韧性。除此之外,还…

    2025年11月27日
    8700
  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    9600
  • DeepSeek开源Engram模块:查算分离破解Transformer/MoE架构记忆推理冲突,开启大模型降本增效新范式

    本文将从技术原理、性能验证、算力变革、产业链影响、国际对比及挑战展望六大维度,深度解析这一技术突破的核心价值与行业影响。 2026年1月13日,AI领域迎来一项颠覆性技术突破——DeepSeek在其GitHub官方仓库正式开源了题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity …

    2026年1月24日
    2900
  • 构建本体驱动GraphRAG:从数据填埋场到零噪声知识图谱的蜕变之路

    构建一个自我演进的知识图谱,它不仅能存储数据,更能理解、校验并持续演化。 gemini 在初次构建 GraphRAG 系统时,我遵循了多数教程的路径:将文档输入大语言模型(LLM),抽取实体,将生成的 JSON 导入 Neo4j,然后宣告完成。在演示环境中,一切运行完美。直到我将它应用于真实的医疗记录。 问题随之暴露。LLM 在一份报告中抽取了“John D…

    2025年12月15日
    7800