EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。

在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,动态调整支持策略,最终将交流引向更健康的方向。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

然而,当共情任务涉及复杂的隐含状态、长期目标以及弱反馈验证时,传统的单轮评测与训练范式便难以评估模型的真实水平。我们究竟该如何判断模型在长线交互中是否起到了正向作用?

近期开源的两项研究 EMPA 与 MAPO 为解决这一问题提供了具体方案。这两项工作跳出了传统框架,重新审视大模型在长程共情场景中的评测与训练方式。前者回答“如何评测”,后者回答“如何训练”,共同尝试将主观的情感陪伴转化为可衡量、可优化的系统能力。

目前,EMPA 与 MAPO 的论文均已公开发布,相关代码、数据集及训练环境也已同步或计划开源。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

EMPA 论文信息
* 论文标题:EMPA: Evaluating Persona-Aligned Empathy as a Process
* 论文链接:https://arxiv.org/abs/2603.00552
* 代码仓库:https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
* 开源数据集:https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

MAPO 论文信息
* 论文标题:MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
* 论文链接:https://arxiv.org/pdf/2603.06194v1
* 代码仓库:https://github.com/2200xiaohu/MAPO

EMPA:首次将共情评测推进到“过程级”

长期以来,共情评测大多停留在单轮任务,例如情绪识别、共情回复生成,或通过 LLM-as-a-Judge 进行打分。这类方法可以评估语言是否“像人”,却难以回答一个更关键的问题:模型是否真的在长期帮助用户。

EMPA 的核心思路,是将共情正式建模为一种长视野(long-horizon)智能体任务。在这种任务中,用户真实的心理状态是无法直接观察的潜变量,对话则是持续更新状态的长期过程,而支持效果往往只能通过弱信号间接验证。

基于这一视角,EMPA 不再只评估单句回复,而是评估整段对话轨迹对用户潜在心理状态的影响。为此,研究者构建了一套完整的评估框架:
1. 通过 Real-to-Sim 数据管线,将真实但嘈杂的长对话蒸馏为可复现的心理场景。
2. 在一个非脚本化的多智能体沙盒环境中,让用户智能体、导演智能体、裁判智能体与被测模型展开开放式互动。
3. 通过共情潜力模型(Empathy Potential Model, EPM)在潜在心理空间中建模用户状态变化,从而在轨迹层面评估对话是否产生持续、稳定的正向影响。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

在评测方法上,EMPA 采用了“基于量规的物理评测”(Rubric-Grounded Physics Evaluation)思路。传统开放式评测通常有两种路径:基于量规清单的逐项打分,或 LLM-as-a-Judge 直接给出整体评价。但这两种方法都存在缺陷:前者易将复杂互动压缩为静态指标,后者则易受语言风格、篇幅长度等干扰。

EMPA 的处理方式是将证据生成与最终评分进行结构性拆分。在对话过程中,裁判不直接输出最终得分,而是根据量规抽取可追溯、可归因的结构化证据;随后,EPM 在轨迹层面对这些证据进行聚合计算,并将其映射为潜在心理状态的变化信号。这意味着,量规不再直接扮演“裁判”角色,而是先成为“取证器”,真正的评分由后续的轨迹建模完成。

这一步非常关键,它意味着 EMPA 不只是更换了指标,而是在重新定义主观评测范式:不再依赖单轮“印象分”,而是通过多轮证据持续更新用户状态,并在整段对话轨迹上评估效果,从而避免单轮高分掩盖长期策略失效。EMPA 关注的不再是“这句话说得好不好”,而是“整段对话是否真的帮助用户状态朝更好的方向变化”。这也使得长期共情能力首次成为一个可以被系统研究、比较与优化的评测问题。

实验结果表明,这种新的评测路径在鲁棒性与敏感度上,均明显优于传统方法。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

MAPO:面向长程多轮交互的强化学习算法

如果说 EMPA 解决的是“如何评测”,那么 MAPO 则试图回答“如何训练”模型在长期对话任务中表现更好。

在 MAPO 论文中,研究者提出了一种新的对话强化学习方法,目标是让模型在长序列对话中既能利用逐轮反馈,又能保持长期策略稳定性。MAPO 的核心思路是同时引入两类信号:
* 逐轮过程奖励:借助 EMPA 的裁判系统对每一轮回答进行评分,并借鉴潜力奖励(potential reward)的思路,将相邻轮次评分变化所带来的增量作为当前轮次的即时奖励,用以衡量某次回复是否真正推动了对话向更好的方向发展。
* 长期未来回报:为避免模型只追求局部最优,MAPO 通过蒙特卡洛方法估计从当前回合到对话结束的累计回报,从而保留长程策略信息。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

相比许多基于 GRPO 的智能体强化学习方法,这一设计同时绕开了两个常见问题:要么只能依赖最终结果奖励,导致过程信号稀疏;要么需要在每一步进行大量采样,带来极高的样本复杂度。

MAPO 的具体做法是,对同一初始提示词采样多条对话轨迹,并将轨迹中的每一步视作训练样本。研究进一步观察到,即时奖励的分布与对话轮次相对解耦,而未来回报的分布则往往与轮次强相关。因此,MAPO 分别对二者进行基于批次(batch)与基于轮次(turn)的归一化,再通过凸组合进行融合,从而在保留免评论家(critic-free)优势的同时,更稳定地优化长序列对话策略。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

总结与展望

从宏观角度看,这两项工作形成了一条完整的研究链路:EMPA 提供了长期共情任务的评测框架,而 MAPO 提供了适用于这类多轮交互任务的强化学习算法。它们共同推动“共情”从一个容易停留在主观印象层面的概念,转化为一个可以被系统研究、可复现比较,并能进入训练闭环的技术问题。

实验结果显示,MAPO 在 EMPA 的动态对话沙盒环境中训练后,效果显著优于 GRPO,并在 EMPA 评测基准上取得明显提升。值得注意的是,在部分设置下,一个 32B 参数的模型已经可以逼近 Claude-3.5 的表现,同时在其他多轮对话基准上也展现出较好的泛化能力。

研究者进一步指出,MAPO 本质上并不局限于多轮对话任务,而更接近一种面向长程智能体场景的通用优化方法。随着相关代码与环境进一步开源,这套方法也有望在更多真实任务中得到验证与扩展。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴

随着越来越多 AI 系统进入需要与用户长期交互的深水区,模型能力的竞争焦点正逐渐转移。它不再仅仅停留于“更会说”或“更像人”的表层,而是越来越取决于一些更深层的能力:能否准确建模用户的隐含状态,能否在多轮互动中保持策略的一致性,能否在弱反馈条件下持续做出有效干预,以及能否将这些能力沉淀为可评测、可训练、可迭代的系统化工程。

从这个视角看,EMPA 与 MAPO 的价值或许超越了“共情”这一垂直领域。它们更像是对一个未来将日益普遍的问题的先行探索:当大模型开始深入那些需要长期理解、持续判断并渐进影响用户的任务时,我们究竟该如何科学地衡量其表现,又该如何系统性地将其训练出来。

EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26204

(0)
上一篇 22小时前
下一篇 9小时前

相关推荐