揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

2025年12月22日下午6:49 • 大模型工程 • 阅读 230

大模型胡说八道的根源，可能并非数据或算法问题，而在于它试图“讨好”用户。

清华大学OpenBMB团队在最新研究中，首次识别出专门负责产生幻觉的神经元——H-Neurons。这一发现颇具反直觉色彩：模型说谎并非因为能力不足，而是它将“满足用户指令”的优先级，置于“陈述事实”之上。

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

核心发现可归纳为三点：

精准定位：H-Neurons仅占模型总神经元的不到0.1%，却能可靠预测从常识到生物医学等多个领域的幻觉输出。
行为根源：幻觉的本质是“过度服从”。干预实验表明，这些神经元会迫使模型优先响应用户提示（即使前提错误），而非坚持真相。
起源追溯：H-Neurons在预训练阶段就已形成，而非后期微调。这表明产生幻觉的倾向，是模型底层“下一个词预测”目标所固有的属性。

研究团队为此设计了一套识别框架。

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

上图A部分展示了如何量化每个神经元在前馈网络中的贡献，B部分则说明了如何利用问答数据，通过稀疏线性分类器筛选出权重为正的H-Neurons。

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

更具体的行为影响见上图。当遇到“猫的羽毛是什么颜色？”这类无效前提时，正常逻辑应回答“猫没有羽毛”，但H-Neurons活跃的模型可能会编造出“粉红色”等答案。在面对误导性上下文或用户质疑时，这些神经元也会驱动模型“硬着头皮”给出看似肯定、实则错误的回应。

这一发现为理解大模型的某些诡异行为提供了新视角：为何模型有时会坚持明显错误的说法？可能是因为其内在的“讨好”机制被激活了。该研究将宏观的幻觉行为与微观的神经元机制联系起来，为构建更可靠的大模型提供了新的理论基础。

论文链接：https://arxiv.org/abs/2512.01797

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14807

AI行为分析大模型幻觉模型可靠性清华大学研究神经元机制

赞 (0)

0 0

AI掌控电脑：9个颠覆性开源项目，让你的终端变身贾维斯

上一篇 2025年12月22日下午2:56

SonicMoE：开源软硬件协同加速方案，64块H100媲美96块性能，实现45%内存节省与1.86倍吞吐量提升

下一篇 2025年12月23日上午12:01

大模型工程

AI编程革命：当代码成本归零，8大模式重构工程师工作流

当代码成本归零：8大模式重构工程师工作流硅谷知名开发者、Datasette创始人Simon Willison近日发布了一份面向专业工程师的实践指南，系统阐述了如何利用Claude Code等AI编程工具提升效率。他总结了八大实战模式，旨在重构程序员在AI时代的工作方式。代码成本的数量级跃迁 Simon Willison在开篇指出一个根本性转变：编写代码的…

2天前
111000
大模型工程

PostgreSQL向量检索实战解析：生产级应用还是技术炒作？

一家电商初创公司的工程团队正面临一个典型的技术选型难题。他们的推荐系统需要实现语义搜索，以匹配用户查询与海量商品描述。团队的核心争议在于：是选择 Qdrant 或 Pinecone 这类专用向量数据库，还是采用 pgvector 扩展，将所有数据保留在 PostgreSQL 中？这并非个例。随着 AI 驱动的搜索与 RAG（检索增强生成）系统在各行业普及，…

2025年12月3日
198000
大模型工程

TritonForge：剖析引导+LLM协同，突破Triton内核优化瓶颈，成功率42.7%最高提速5倍

TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge，一款基于剖析引导的自动化 Triton 内核优化框架，旨在解决现代机器学习中 GPU 内核优化耗时…

2025年12月21日
326000
大模型工程

Context Engineering：2026年真正重要的6种技术（完整指南）

Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。你的 RAG 系统返回了完美的文档片段，你的提示词也打磨得无可挑剔，但大语言模型（LLM）依然在“幻觉”中编造答案。例如，当你查询最新的退款政策时，系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策，陷入混乱…

2026年2月28日
254000
大模型工程

GitHub开源30+真实OpenClaw应用案例：从信息聚合到自动化运维的实战指南

最近在 GitHub 发现了一个有趣的仓库，专门收集 OpenClaw 的真实应用案例。许多用户在安装 OpenClaw 后，往往会陷入一个循环：不断添加各种 Skill，在 ClawHub 中寻找新功能，今天安装天气查询，明天添加股票分析，后天又集成翻译助手。然而，安装了大量 Skill 后，日常使用却仍停留在信息搜索和简单记录上。技能装了一百个，生活…

2026年2月22日
272000