大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

随着语音、视频和多模态能力不断融入大语言模型（LLM），人与AI的交互正日益趋近于自然对话。如今的LLM已不仅是回答问题的工具，而是越来越多地应用于教育、客服、陪伴、心理健康等高度依赖情绪理解的场景。

那么，大语言模型究竟如何理解人类情绪？

过去，关于LLM情绪能力的研究多集中于情绪分类任务：给定一句话，模型需判断其中包含快乐、悲伤、愤怒还是恐惧。然而，在人类认知中，情绪并非扁平化的类别。心理学中的“情绪轮”理论指出，情绪通常以层级方式组织——例如，“乐观”可视为“快乐”的一种具体形式，“惊恐”则是“恐惧”的具体表现。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

图1 情绪轮（来源：爱达荷州立大学）

在ICML 2026的一篇论文中，来自哈佛大学、加州大学圣地亚哥分校、NTT Research的研究人员Bo Zhao、Maya Okawa等提出：大语言模型内部会自然形成类似人类心理模型的“情绪树”。模型规模越大，情绪树越复杂。同时，拥有更复杂情绪结构的模型在销售等任务上表现更优。模型中的情绪结构还会受到性别、种族、收入、教育水平等身份设定的影响，表现出与人类实验相似的情绪识别偏见。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

论文标题：Emergence of Hierarchical Emotion Organization in Large Language Models
论文链接：https://arxiv.org/abs/2507.10599
项目主页：https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
作者主页：https://b-zhao.github.io/

从LLM中提取情绪树

作者首先使用GPT-4o生成了5000个包含不同情绪状态的场景句子，然后让Llama系列模型在句子后继续预测“这个句子中的情绪是……”。接着，作者提取模型在135个情绪词上的输出概率，并比较两个情绪词在模型输出中是否经常共同出现。例如，若模型认为下一个词是“乐观”的概率较高时，“快乐”也常概率较高，但反之不总是成立，则可认为“乐观”是“快乐”的一个更具体的子情绪。基于这种条件概率关系，模型中的情绪可构建成一棵情绪树。此方法无需人工标注，完全依赖模型自身对大量情绪场景的概率判断。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

图2 不同规模Llama模型的情绪树（8B、70B、405B）

模型越大，情绪层级越复杂

实验比较了GPT-2、Llama 3.1 8B、70B和405B。结果显示，随着模型规模增大，情绪树变得更深、更复杂，也更接近心理学中的情绪轮结构。在Llama 405B中，快乐、愤怒、悲伤、恐惧等基本情绪会自然聚合出更细粒度的子类，如幸福、乐观、沮丧、后悔、焦虑等。论文进一步用总路径长度和平均深度衡量情绪树复杂度，发现这两个指标随模型规模整体上升。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

图3 情绪层级复杂度随模型规模增长

情绪树能预测模型的情绪识别能力

作者进一步发现，情绪树不仅是可视化工具，还能预测模型在不同身份设定下的情绪识别表现。研究者让Llama 405B分别以男性、女性、高收入、低收入、高教育水平、低教育水平等身份判断情绪。结果显示，不同身份设定会生成不同的情绪树，而情绪树越丰富、路径越长，模型的情绪识别准确率越高。树中总路径长度与识别准确率的相关系数达到0.84，显著性小于0.001。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

图4 情绪树结构越复杂，情绪识别准确率越高

这意味着，层级结构可成为一种新的LLM评测指标：它衡量的不是模型是否偶然选对标签，而是模型是否形成了更细粒度的情绪概念组织。

LLM的偏见和人类有多像？

论文还揭示了LLM情绪识别中的系统性偏见。Llama 405B在模拟少数或弱势群体身份（如女性、黑人、低收入、低教育水平）时，情绪识别准确率明显下降，表现低于对应多数群体或优势群体。为验证这些现象是否仅为模型自身的偏差，作者还进行了人类实验。研究者在Prolific平台上招募60名参与者，让他们对135个情绪场景进行六类情绪判断。结果显示，LLM的一些误判模式与人类参与者存在相似之处。例如，女性参与者和Llama的女性身份设定都更容易在“愤怒”与“恐惧”之间混淆；黑人参与者和Llama的黑人身份设定也表现出类似的负面情绪混淆模式。这说明，LLM可能不仅学到了情绪词和文本之间的对应关系，也在一定程度上吸收了人类社会中的感知模式与偏见。

从理解情绪到影响情绪

情绪树的复杂度不仅反映模型能否“看懂”情绪，也可能影响模型在对话中改变情绪的能力。论文进一步模拟了销售和投诉处理两类场景：前者让模型尝试将一颗橡果卖出更高价格，后者让模型安抚愤怒顾客。每轮对话中，模型都需要预测对方下一步的情绪变化。结果显示，情绪预测越准确，销售场景中的最终成交价格越高；在投诉处理场景中，顾客对话后的愤怒程度下降也越明显。这说明，LLM的情绪理解并非仅是静态分类能力。更细致的情绪建模可能帮助模型更有效地顺应、引导甚至改变用户情绪。这一能力在客服、教育和心理支持中可能带来积极作用，但也需更谨慎地评估其潜在风险。

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

图5 情绪预测误差越低，销售/客服表现越好

总结

这篇论文指出，LLM内部会自然涌现出类似人类情绪轮的层级情绪结构。随着模型规模增加，这种结构变得更复杂，也更接近心理学模型。同时，论文也发现，LLM的情绪理解并非中性。模型在不同身份设定下会表现出系统性偏见，并且这些偏见在部分情况下与人类群体的误判模式相似。从更广的角度看，这项工作展示了一条新的大模型评测路径：将认知科学理论作为假设，用于分析LLM的内部结构和输出行为。我们不仅需要知道模型是否能识别情绪，也需要评估它如何理解、预测甚至影响情绪。这些能力既可能让AI交互更自然、更有帮助，也可能被用于操控、误导或放大社会偏见，因此需要更系统的评测与干预。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34310

大模型内部竟藏着“情绪树”：模型越大，情感理解越像人类

相关推荐

大模型评测框架全景解析：如何选择适合你的测试工具？

OpenAI重磅研究：推理越强的AI，越管不住自己的“脑子”！思维链可控性测试惊现0.1%成功率

T2R-Bench发布：业内首个由表格生成报告工业基准

Grok-4-1-fast-reasoning评测：速度与成本的革命性优化，准确率与专业能力的权衡

阿里Qwen3.5-27B深度评测：理科思维突出，文档处理与逻辑推理是亮点，艺术创作待提升