
在人工智能技术快速发展的今天,大语言模型(LLMs)已从单纯的信息处理工具演变为具备情感交互能力的复杂系统。近日,趣丸科技与北京大学软件工程国家工程研究中心联合发表的《检测情感动态轨迹:大语言模型情感支持的评估框架》论文获AAAI 2026录用,标志着情感计算领域迈入了全新的评估范式。AAAI作为人工智能领域的顶级学术会议,本届会议投稿量达31000篇,录用率仅17.6%,创历史新低,凸显了该研究成果的学术价值与创新性。
当前大语言模型的情感支持评估存在显著局限:多数研究停留在单轮对话的静态分析,忽视了情感交互的动态演变特性。传统评估方法过度关注模型响应的即时质量,却忽略了用户在长期互动中的情感轨迹变化。这种评估偏差导致模型开发难以真正满足用户的情感支持需求,特别是在心理陪伴、情绪调节等需要持续互动的应用场景中。
研究团队基于心理学理论构建了ETrajEval评估框架,该框架包含三大创新维度:首先,设计了包含328个情绪情境和1152个干扰事件的大规模基准环境,模拟真实世界中的情绪波动场景;其次,引入心理学验证的情绪调节策略(如情境选择、认知重评)约束模型响应,确保支持行为符合治疗原则;最后,采用一阶马尔可夫过程建模用户情绪轨迹,通过因果调整实现无偏情绪状态追踪。

该框架的核心突破在于提出了三个轨迹层面的量化指标:平均情绪水平(BEL)衡量用户在整个互动过程中的情绪均值,反映模型的整体支持效果;情绪轨迹波动(ETV)评估情绪变化的稳定性,低波动意味着模型能维持情绪平稳;情绪质心位置(ECP)则通过二维坐标表征情绪发展的方向性与集中度。这三个指标共同构成了对情感支持能力的多维度评估体系。
在实验验证环节,研究团队对当前主流的开源与闭源模型进行了系统性评估。结果显示:顶级开源模型与闭源模型在整体情感支持能力上无显著差异,打破了“闭源即优”的固有认知;专门的角色扮演模型并未在维持积极情绪方面超越通用LLM,说明情感支持能力需要专门优化而非简单功能叠加;语言差异分析揭示,模型在英语对话中的情感支持表现显著优于中文,这反映了训练数据质量与对齐策略的差异。

情绪质心可视化分析进一步揭示了模型的引导能力差异。表现优异的模型(如ChatGPT-4o-Latest、kimi-K2-Preview)能将用户情绪引导至积极稳定区域,而低质心模型则难以维持情绪发展进程。值得注意的是,针对英语优化的模型在情绪调节策略上展现出明显优势,这提示多语言模型需要针对不同文化语境进行差异化训练。


动态轨迹可视化实验设置了0、1、3次干扰事件三种情境。结果显示:ETV得分高的模型能更快速地从情绪低谷中恢复;无干扰时,优质模型可在10轮对话内将情绪恢复至中性水平;面对多次干扰,情感支持能力强的模型表现出更强的抗干扰性。这些发现为模型优化提供了明确方向:增强情绪恢复速度与抗干扰能力应成为情感支持模型的核心优化目标。

因果增强的情感修正估计方法通过构建近2000轮中英文对话的人工标注数据集,验证了评估框架的有效性。三位专家标注员的独立评估显示,该方法的无偏估计能有效降低混杂因素影响,将模型情感识别准确率提升15-20%。这一改进不仅提升了评估的可靠性,更为后续模型训练提供了高质量的数据标注范式。

从产业应用角度看,ETrajEval框架具有多重价值:为AI心理陪伴产品提供了科学的评估标准,帮助开发者量化优化模型的情感支持能力;为医疗健康领域的数字疗法产品建立了可验证的效果评估体系;为企业级客服系统的情感交互模块提供了性能基准。更重要的是,该框架推动情感计算从“响应质量评估”转向“长期效果追踪”,实现了评估范式的根本转变。

展望未来,情感动态轨迹评估仍面临挑战:跨文化情感表达的差异性需要更精细的建模;多模态情感交互(结合语音、表情)的评估体系有待建立;个性化情感支持能力的评估标准需要进一步细化。随着具身智能、智能体技术的发展,情感支持评估将需要融合物理交互、环境感知等新维度,这为后续研究开辟了广阔空间。
该研究成果不仅为大语言模型的情感能力评估提供了科学工具,更深刻揭示了情感支持的动态本质——真正有效的情感支持不是单次完美的回应,而是持续引导情绪向积极稳定状态发展的过程。这一定位转变将推动AI情感计算从技术展示走向实际应用,为人机交互带来更温暖、更持久的价值。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5376
