揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

大模型胡说八道的根源,可能并非数据或算法问题,而在于它试图“讨好”用户。

清华大学OpenBMB团队在最新研究中,首次识别出专门负责产生幻觉的神经元——H-Neurons。这一发现颇具反直觉色彩:模型说谎并非因为能力不足,而是它将“满足用户指令”的优先级,置于“陈述事实”之上。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

核心发现可归纳为三点:

  1. 精准定位:H-Neurons仅占模型总神经元的不到0.1%,却能可靠预测从常识到生物医学等多个领域的幻觉输出。
  2. 行为根源:幻觉的本质是“过度服从”。干预实验表明,这些神经元会迫使模型优先响应用户提示(即使前提错误),而非坚持真相。
  3. 起源追溯:H-Neurons在预训练阶段就已形成,而非后期微调。这表明产生幻觉的倾向,是模型底层“下一个词预测”目标所固有的属性。

研究团队为此设计了一套识别框架。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

上图A部分展示了如何量化每个神经元在前馈网络中的贡献,B部分则说明了如何利用问答数据,通过稀疏线性分类器筛选出权重为正的H-Neurons。

揭秘大模型幻觉根源:清华大学发现“讨好神经元”H-Neurons

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色?”这类无效前提时,正常逻辑应回答“猫没有羽毛”,但H-Neurons活跃的模型可能会编造出“粉红色”等答案。在面对误导性上下文或用户质疑时,这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的回应。

这一发现为理解大模型的某些诡异行为提供了新视角:为何模型有时会坚持明显错误的说法?可能是因为其内在的“讨好”机制被激活了。该研究将宏观的幻觉行为与微观的神经元机制联系起来,为构建更可靠的大模型提供了新的理论基础。

论文链接:https://arxiv.org/abs/2512.01797


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14807

(0)
上一篇 2025年12月22日 下午2:56
下一篇 2025年12月23日 上午12:01

相关推荐

  • AI编程革命:当代码成本归零,8大模式重构工程师工作流

    当代码成本归零:8大模式重构工程师工作流 硅谷知名开发者、Datasette创始人Simon Willison近日发布了一份面向专业工程师的实践指南,系统阐述了如何利用Claude Code等AI编程工具提升效率。他总结了八大实战模式,旨在重构程序员在AI时代的工作方式。 代码成本的数量级跃迁 Simon Willison在开篇指出一个根本性转变:编写代码的…

    2天前
    11100
  • PostgreSQL向量检索实战解析:生产级应用还是技术炒作?

    一家电商初创公司的工程团队正面临一个典型的技术选型难题。他们的推荐系统需要实现语义搜索,以匹配用户查询与海量商品描述。团队的核心争议在于:是选择 Qdrant 或 Pinecone 这类专用向量数据库,还是采用 pgvector 扩展,将所有数据保留在 PostgreSQL 中? 这并非个例。随着 AI 驱动的搜索与 RAG(检索增强生成)系统在各行业普及,…

    2025年12月3日
    19800
  • TritonForge:剖析引导+LLM协同,突破Triton内核优化瓶颈,成功率42.7%最高提速5倍

    TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge,一款基于剖析引导的自动化 Triton 内核优化框架,旨在解决现代机器学习中 GPU 内核优化耗时…

    2025年12月21日
    32600
  • Context Engineering:2026年真正重要的6种技术(完整指南)

    Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…

    2026年2月28日
    25400
  • GitHub开源30+真实OpenClaw应用案例:从信息聚合到自动化运维的实战指南

    最近在 GitHub 发现了一个有趣的仓库,专门收集 OpenClaw 的真实应用案例。 许多用户在安装 OpenClaw 后,往往会陷入一个循环:不断添加各种 Skill,在 ClawHub 中寻找新功能,今天安装天气查询,明天添加股票分析,后天又集成翻译助手。 然而,安装了大量 Skill 后,日常使用却仍停留在信息搜索和简单记录上。技能装了一百个,生活…

    2026年2月22日
    27200