EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

现如今，大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而，我们或许会怀疑：在一句句“高情商回复”的背后，模型是否真正理解了共情。

在情感陪伴与心理支持等真实场景中，人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪，更会潜移默化地改变后续对话的轨迹。真正有效的共情，需要模型在长期的多轮互动中，持续观察并理解对方的潜在心理状态，动态调整支持策略，最终将交流引向更健康的方向。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

然而，当共情任务涉及复杂的隐含状态、长期目标以及弱反馈验证时，传统的单轮评测与训练范式便难以评估模型的真实水平。我们究竟该如何判断模型在长线交互中是否起到了正向作用？

近期开源的两项研究 EMPA 与 MAPO 为解决这一问题提供了具体方案。这两项工作跳出了传统框架，重新审视大模型在长程共情场景中的评测与训练方式。前者回答“如何评测”，后者回答“如何训练”，共同尝试将主观的情感陪伴转化为可衡量、可优化的系统能力。

目前，EMPA 与 MAPO 的论文均已公开发布，相关代码、数据集及训练环境也已同步或计划开源。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

EMPA 论文信息
* 论文标题：EMPA: Evaluating Persona-Aligned Empathy as a Process
* 论文链接：https://arxiv.org/abs/2603.00552
* 代码仓库：https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
* 开源数据集：https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

MAPO 论文信息
* 论文标题：MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
* 论文链接：https://arxiv.org/pdf/2603.06194v1
* 代码仓库：https://github.com/2200xiaohu/MAPO

EMPA：首次将共情评测推进到“过程级”

长期以来，共情评测大多停留在单轮任务，例如情绪识别、共情回复生成，或通过 LLM-as-a-Judge 进行打分。这类方法可以评估语言是否“像人”，却难以回答一个更关键的问题：模型是否真的在长期帮助用户。

EMPA 的核心思路，是将共情正式建模为一种长视野（long-horizon）智能体任务。在这种任务中，用户真实的心理状态是无法直接观察的潜变量，对话则是持续更新状态的长期过程，而支持效果往往只能通过弱信号间接验证。

基于这一视角，EMPA 不再只评估单句回复，而是评估整段对话轨迹对用户潜在心理状态的影响。为此，研究者构建了一套完整的评估框架：
1. 通过 Real-to-Sim 数据管线，将真实但嘈杂的长对话蒸馏为可复现的心理场景。
2. 在一个非脚本化的多智能体沙盒环境中，让用户智能体、导演智能体、裁判智能体与被测模型展开开放式互动。
3. 通过共情潜力模型（Empathy Potential Model, EPM）在潜在心理空间中建模用户状态变化，从而在轨迹层面评估对话是否产生持续、稳定的正向影响。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

在评测方法上，EMPA 采用了“基于量规的物理评测”（Rubric-Grounded Physics Evaluation）思路。传统开放式评测通常有两种路径：基于量规清单的逐项打分，或 LLM-as-a-Judge 直接给出整体评价。但这两种方法都存在缺陷：前者易将复杂互动压缩为静态指标，后者则易受语言风格、篇幅长度等干扰。

EMPA 的处理方式是将证据生成与最终评分进行结构性拆分。在对话过程中，裁判不直接输出最终得分，而是根据量规抽取可追溯、可归因的结构化证据；随后，EPM 在轨迹层面对这些证据进行聚合计算，并将其映射为潜在心理状态的变化信号。这意味着，量规不再直接扮演“裁判”角色，而是先成为“取证器”，真正的评分由后续的轨迹建模完成。

这一步非常关键，它意味着 EMPA 不只是更换了指标，而是在重新定义主观评测范式：不再依赖单轮“印象分”，而是通过多轮证据持续更新用户状态，并在整段对话轨迹上评估效果，从而避免单轮高分掩盖长期策略失效。EMPA 关注的不再是“这句话说得好不好”，而是“整段对话是否真的帮助用户状态朝更好的方向变化”。这也使得长期共情能力首次成为一个可以被系统研究、比较与优化的评测问题。

实验结果表明，这种新的评测路径在鲁棒性与敏感度上，均明显优于传统方法。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

MAPO：面向长程多轮交互的强化学习算法

如果说 EMPA 解决的是“如何评测”，那么 MAPO 则试图回答“如何训练”模型在长期对话任务中表现更好。

在 MAPO 论文中，研究者提出了一种新的对话强化学习方法，目标是让模型在长序列对话中既能利用逐轮反馈，又能保持长期策略稳定性。MAPO 的核心思路是同时引入两类信号：
* 逐轮过程奖励：借助 EMPA 的裁判系统对每一轮回答进行评分，并借鉴潜力奖励（potential reward）的思路，将相邻轮次评分变化所带来的增量作为当前轮次的即时奖励，用以衡量某次回复是否真正推动了对话向更好的方向发展。
* 长期未来回报：为避免模型只追求局部最优，MAPO 通过蒙特卡洛方法估计从当前回合到对话结束的累计回报，从而保留长程策略信息。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

相比许多基于 GRPO 的智能体强化学习方法，这一设计同时绕开了两个常见问题：要么只能依赖最终结果奖励，导致过程信号稀疏；要么需要在每一步进行大量采样，带来极高的样本复杂度。

MAPO 的具体做法是，对同一初始提示词采样多条对话轨迹，并将轨迹中的每一步视作训练样本。研究进一步观察到，即时奖励的分布与对话轮次相对解耦，而未来回报的分布则往往与轮次强相关。因此，MAPO 分别对二者进行基于批次（batch）与基于轮次（turn）的归一化，再通过凸组合进行融合，从而在保留免评论家（critic-free）优势的同时，更稳定地优化长序列对话策略。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

总结与展望

从宏观角度看，这两项工作形成了一条完整的研究链路：EMPA 提供了长期共情任务的评测框架，而 MAPO 提供了适用于这类多轮交互任务的强化学习算法。它们共同推动“共情”从一个容易停留在主观印象层面的概念，转化为一个可以被系统研究、可复现比较，并能进入训练闭环的技术问题。

实验结果显示，MAPO 在 EMPA 的动态对话沙盒环境中训练后，效果显著优于 GRPO，并在 EMPA 评测基准上取得明显提升。值得注意的是，在部分设置下，一个 32B 参数的模型已经可以逼近 Claude-3.5 的表现，同时在其他多轮对话基准上也展现出较好的泛化能力。

研究者进一步指出，MAPO 本质上并不局限于多轮对话任务，而更接近一种面向长程智能体场景的通用优化方法。随着相关代码与环境进一步开源，这套方法也有望在更多真实任务中得到验证与扩展。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

随着越来越多 AI 系统进入需要与用户长期交互的深水区，模型能力的竞争焦点正逐渐转移。它不再仅仅停留于“更会说”或“更像人”的表层，而是越来越取决于一些更深层的能力：能否准确建模用户的隐含状态，能否在多轮互动中保持策略的一致性，能否在弱反馈条件下持续做出有效干预，以及能否将这些能力沉淀为可评测、可训练、可迭代的系统化工程。

从这个视角看，EMPA 与 MAPO 的价值或许超越了“共情”这一垂直领域。它们更像是对一个未来将日益普遍的问题的先行探索：当大模型开始深入那些需要长期理解、持续判断并渐进影响用户的任务时，我们究竟该如何科学地衡量其表现，又该如何系统性地将其训练出来。

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26204

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

EMPA：首次将共情评测推进到“过程级”

MAPO：面向长程多轮交互的强化学习算法

总结与展望

相关推荐

大模型评测的演进之路：从静态指标到动态验证（2025）【Benchmarks解读】

AI评测信任危机：伯克利团队10行代码攻破8大基准，作弊已成现实

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

向量检索评估体系大洗牌：IceBerg基准揭示HNSW并非最优，多模态RAG远未标准化

MiniMax-M2实测揭秘：轻量级MoE架构如何实现性能飙升与成本锐减