语音情感识别
-
EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”
语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…