语音情感识别

大模型推理

EmotionThinker：首个面向可解释情感推理的强化学习框架，让SpeechLLM学会“解释情绪”

语音情感识别（Speech Emotion Recognition, SER）在过去基本遵循同一种范式：输入语音，输出情绪标签。这种设定在工程上有效，但在认知层面却过于简化。在人类交流中，情绪判断从来不是一个“标签选择”的过程，而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容，以及说话人的身份特征，去解释“为什么”…

2026年2月25日
244000