告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式

随着机器人操作从短程、单步技能向长程、多接触、需要持续协调与恢复能力的复杂任务演进，传统以二元成功率（成功/失败）为核心的评估范式已显露出明显局限。该指标仅能回答“任务是否完成”，却无法揭示“策略推进到了哪个阶段”“执行过程是否高效稳定”以及“失败具体发生在何处”等关键问题。

针对这一挑战，来自中国科学院自动化研究所、北京大学和智源研究院等机构的研究人员提出了“PRM-as-a-Judge”新范式。该框架摒弃了仅依据最终结果进行评价的方式，转而从任务执行轨迹的视频中恢复出连续的进度信号，并据此对执行过程进行细粒度审计。其核心构成包括任务条件化的进度势能、OPD三层指标体系，以及用于验证评估器细粒度分辨能力的RoboPulse基准。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式

论文信息
* 标题： PRM-as-a-Judge: A Dense Evaluation Paradigm for Fine-Grained Robotic Auditing
* 论文： https://arxiv.org/abs/2603.21669
* 项目页： https://prm-as-a-judge.github.io/
* 代码： https://github.com/Yuheng2000/PRM-as-a-Judge
* 基准： https://huggingface.co/datasets/yuheng2000/RoboPulse

1. 二元成功率为何不足以评估长程任务？

在现有具身智能研究中，策略评估仍高度依赖二元成功率。对于短程、结构清晰的任务，该指标能提供直观的比较；然而，当任务演变为长程、多阶段、强交互的复杂操作时，二元成功率的信息量便严重不足。

这种不足主要体现在两方面：
* 分辨率不足： 二元标签仅能回答“最终是否成功”，无法刻画轨迹内部的关键差异。一个接近完成却在最后阶段失败的轨迹，与一个早期就偏离目标的轨迹，均被记为失败，从而掩盖了不同方法在任务推进深度上的真实差异。
* 诊断能力有限： 成功率无法解释机器人“如何成功”或“为何失败”。一次平稳高效的执行与一次依赖多次冗余修正才勉强完成的轨迹，在结果上可能相同；同样，停滞、回退、恢复失败等过程特征也不会在最终标签中体现，这限制了后续优化与瓶颈分析的深度。

因此，对于长程任务，评估的关键已不仅是终点的“成功”与“失败”，更在于执行过程中推进到了哪一阶段、推进是否稳定，以及失效的具体位置。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
相同的二元标签下隐藏着截然不同的物理执行逻辑。失败可能发生在任务的任何阶段（从5%到99%进度），而成功亦有“平稳高效”与“反复修正”之分。

2. 从结果判定到过程级评测

为恢复被二元标签压缩的轨迹信息，研究将评估重心从“结果”转向“过程”。在真实物理场景中，研究者通常无法获取模拟器中的特权信息（如精确位姿、接触力）。因此，这项工作选择了一条更具现实意义的路径：直接根据视觉状态的演化来刻画任务进度。

具体而言，作者为给定任务条件下的每个状态分配一个位于[0,1]区间内的进度势能Φ。一旦获得此势能表示，一条原本仅对应“成功/失败”标签的执行轨迹，便可转化为一条随时间变化的连续进度曲线。这使得研究者能够观察到一条可比较、可分解、可诊断的过程信号：轨迹推进的深度、过程中是否存在反复回退、哪些阶段容易停滞等问题，均得以显式刻画。

3. 一个合格的密集评估器需满足什么条件？

在此框架下，作者将“密集评估”形式化为两个核心性质：
1. 宏观一致性： 评估结果在时间上需具备可加性和路径一致性。即，同一段执行过程，无论被如何切分为更短的时间片，其累积进度都应保持一致，不随分段方式改变而漂移。
2. 微观分辨率： 评估器需能识别细粒度、任务相关的状态变化，而非仅对粗粒度视觉差异做出反应。

作者指出，在其采用的基于势能的表述中，只要评估器能在固定任务上下文中为每个状态赋予一个可比较的标量进度值，并将任意时间区间上的进度定义为两个状态势能的差值，那么宏观一致性便可直接得到保证。PRM评估器被视为该表述的一种自然且实用的实现。

相比之下，许多依赖相对比较或相似度启发式的方法，往往缺乏这种全局一致的势能表示，因此在不同时间段或比较基准下更易出现尺度漂移。而微观分辨率则无法仅由结构性定义自动保证，需通过专门的诊断基准进行检验。

4. OPD：将轨迹分解为三层可解释信号

在进度势能Φ的基础上，作者构建了OPD指标体系，将复杂执行轨迹分解为三个层次的审计结果：
* 结果层： 回答“推进到了哪里”。
* 过程层： 回答“推进得怎么样”。
* 诊断层： 回答“如果没做好，问题出在哪里”。

这是PRM-as-a-Judge的核心输出形式。
* 结果层采用里程碑覆盖率与最大进度两个指标描述推进深度。
* 过程层定义了路径加权进度长度，用于衡量推进效率及冗余程度。
* 诊断层使用累积遗憾面积和停滞比率来刻画回退与停滞两类常见失效机制。

与单一成功率相比，OPD的价值在于将执行过程重写为结构化、可诊断的行为信号。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
OPD将一次执行分解为三层信号：结果层刻画推进深度，过程层刻画执行质量，诊断层刻画失败机制。五个核心指标分别对应阶段可达性、最大进度、路径效率、回退代价与停滞比例。

5. RoboPulse：评估器是否真的具备细粒度分辨能力？

在确立了理论性质与过程级指标后，关键问题在于：评估器是否能真正感知微小但任务相关的物理变化？

为此，作者构建了RoboPulse诊断基准。在该框架下，宏观一致性已由势能形式在结构上保证，而微观分辨率则需通过受控实验进行检验。RoboPulse正是围绕此目标设计的基准，用于验证评估器对细粒度状态变化的真实分辨能力。

2. 细粒度评估基准：RoboPulse

为了验证评估模型对细微物理变化的感知能力，研究团队构建了专门的细粒度进度判断基准——RoboPulse。该基准的核心是将进度评估转化为一个成对判断问题：给定来自同一任务执行轨迹的两个状态，评估模型需要判断后一个状态相对于前一个状态是“前进”还是“回退”。这种设计不依赖于绝对进度标定，而是直接考察评估模型识别进度方向这一本质能力，尤其是在物理变化极其细微时能否保持稳定的判断力。

在构建基准时，团队首先利用关键帧将原始轨迹划分为语义一致的阶段，并过滤掉进度非单调（如近静止、往复振荡）或难以标注的片段。随后，在保留的单调前进区间内，按照相对进度跨度的大小，系统性地采样了 Small、Medium、Large 三个级别的状态对样本。

RoboPulse 基准规模可观，共包含 1800 个 成对进度判断样本。这些样本来源于 1622 条 执行轨迹，覆盖 816 个 不同的长程操作任务，并汇集了 7 个 不同的数据源。基准同时涵盖了真实机器人、仿真环境、UMI采集数据及人类第一视角视频等多种设置，确保了评估的广泛性和鲁棒性。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
RoboPulse 基准汇集了多数据源与不同机器人本体，用于系统评估模型对微观进度变化的辨别能力。

在该基准上，研究团队将基于 PRM 的评估模型（PRM-as-a-Judge）与两类常见替代方案进行了对比：一类是基于 CLIP 的视觉相似度方法，另一类是 Gemini、GPT-4V 等通用多模态大模型。

实验结果表明，PRM 模型在细粒度进度判断上整体表现更优。例如，Robo-Dopamine 模型的总体准确率达到 0.83；而 Gemini 为 0.66，Qwen2-VL-7B 为 0.59，多种 CLIP 变体的准确率则在 0.46–0.59 区间。

更重要的是，在最具挑战性的 Small-hop（细微变化）区间，PRM 模型的优势进一步扩大。Robo-Dopamine 的平均准确率高达 0.80，其他两个 PRM 模型也达到了 0.61 和 0.63。相比之下，Gemini 在该区间准确率为 0.54，GPT-4V 为 0.47。这证明，当进度变化的尺度足够细微时，依赖粗粒度语义线索的通用模型其帮助有限，而基于任务相关物理过程进行监督训练的 PRM 模型则展现出显著优势。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
在 RoboPulse 基准上，基于 PRM 的评估模型在不同进度跨度下均表现出更强的分辨能力，在 Small-hop 区间的优势尤为显著，证明其对细微的、任务相关的物理状态变化具有高度敏感性。

3. 应用：用 OPD 框架重新审视真实策略轨迹

在验证了评估模型具备微观分辨能力后，研究团队进一步将 PRM-as-a-Judge 与 OPD 框架应用于大规模真实策略评估。他们在 RoboTwin 2.0 仿真环境中，选取了 5 类 具有代表性的策略模型（包括 DP、ACT、RDT、pi0、OpenVLA-OFT），在多个长程操作任务上分别进行 50 次 轨迹采样，并利用 OPD 框架进行统一分析。

3.1 失败究竟发生在哪个阶段？

Outcome 层指标最直接的价值，是将笼统的“失败”分解到不同进度阶段。以 Blocks Ranking RGB 任务为例，大多数策略在任务早期（MC@25）的可达性并不低，介于 84–100 之间；然而，到了最终完成阶段（MC@100），成功率骤降至 0–8。这表明，大量失败并非源于“一开始就不会”，而是在已经取得相当进展后，集中失效于最后的“临门一脚”阶段。

更进一步，OPD 还能区分那些“最终成功率都为零”但失败模式截然不同的策略。例如在同一任务上，pi0 策略在进度 75% 时的可达性（MC@75）为 40，而 OpenVLA-OFT 仅为 6。尽管两者的最终完成率（MC@100）都接近零，但前者的失败通常发生在更接近终点的位置，后者则更容易在任务中早期就提前停滞。这类关键差异在传统的二元成功率评估下是完全不可见的。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
阶段性可达性分析揭示了策略在“最后一公里”的差距，并能将早期崩溃与近乎完成后的失败区分开来。

3.2 成功与成功，并不等价

为了评估策略在成功条件下的执行质量，研究团队选取了 Handover Mic 任务中所有成功的轨迹样本进行分析。结果显示，DP 策略在成功样本中的平均进度路径长度（PPL）为 94.9（数值越高表示路径越直接、效率越高），高于其他对比方法；同时，其累积回退面积（CRA）仅为 0.26，显著低于 OpenVLA-OFT 的 2.55。这意味着，DP 策略一旦进入成功的轨道，往往能以更高的效率和更少的倒退来完成目标。

然而，这并不代表 DP 策略总体最可靠。结合 Outcome 层数据可以看到，DP 在 Handover Mic 任务上的最终成功率（MC@100）只有 44，而其他一些策略则能达到 98 甚至 100。这揭示了一个重要观点：成功条件下的高质量执行，并不等同于更高的总体任务可靠性。有些方法在“成功时”表现优异，但它们可能缺乏从错误中恢复的能力，导致总体成功率不高。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
成功条件下的执行质量分析表明，在成功的轨迹内部，不同策略在路径效率和回退代价上仍存在显著差异。这证明成功并不自动意味着高质量的成功。

3.3 “失败”也有不同的内在机制

Diagnosis 层指标则将统一的“失败”标签，进一步拆解为不同的失效机制。以 Place Bread Basket 任务为例，OpenVLA-OFT 策略的平均最大进度（MP）高达 92.6，说明它常常能推进到非常接近终点的位置；但其累积回退面积（CRA）也达到 26.3，显示出明显的晚期不稳定性和高昂的恢复代价。相反，ACT 策略在该任务上的 MP 为 73.1，而停滞率（STR）达到 65.4，更接近于一种早期推进不足、陷入停滞的失败模式。

类似地，在 Handover Mic 任务上，DP 策略的失败更偏向高停滞（STR 为 57.2），而 OpenVLA-OFT 的失败则表现为更高的回退和较低的路径效率（PPL 为 66.2，CRA 为 5.66）。研究指出，OPD 框架提供的并非简单的“好/坏”排序，而是一种可复现的 “失败指纹” 。不同策略家族会在 OPD 指标构成的空间中呈现出相对稳定的失效画像，这为后续的策略改进提供了更具针对性的诊断方向。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
失败指纹图通过 CRA 与 STR 指标，将失败从单一标签拆解为不同机制：有的策略表现为晚期失稳与明显回退，有的则表现为长期停滞与推进不足。

3.4 差异体现在指标的联合画像中

研究团队也将 OPD 框架应用于 RoboChallenge Table30 公开榜单的分析中，使用 Robo-Dopamine-2.0-8B-Preview 作为统一评估器，对榜单上不同模型的真实执行轨迹特征进行剖析。

从 OPD 指标下的总榜分析可以清晰看出，真正区分方法性能高下的，往往不只是“最终是否完成”，而是 推进深度、执行质量与失败形态 等多方面信号的共同作用。在头部模型中，DM0 的优势不仅体现在最高的平均最终成功率（Avg MC@100: 62.0），同时也体现在最高的平均最大进度（Avg MP: 70.3）和最优的平均路径效率（Avg PPL: 31.2）上。这表明它的领先并非单纯依赖更高的“撞线”率，而是源于更深的平均推进能力和更高效、平稳的执行过程。

相比之下，GigaBrain-0.1 虽然在平均最大进度（Avg MP）上与 DM0 几乎持平，但其平均路径效率（Avg PPL: 26.2）明显更低。这说明它虽然能推进到相似的位置，但执行路径的质量相对较差，可能包含更多冗余或回退。因此，OPD 框架刻画的不仅是“谁成功更多”，更是 “谁的成功更接近高效、平稳、少修正的理想状态”。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式
OPD 指标下的 RoboChallenge Table30 总榜分析显示，头部模型的差异体现在推进深度、执行质量等多维度。详细指标参见项目官方博客。

相比之下，GigaBrain-0.1 则表现出更典型的“最后一公里”差距。其平均最大进度（Avg MP）为 70.1，与 DM0 的 70.3 几乎持平；但其平均任务完成率（Avg MC@100）仅为 51.7，显著低于 DM0 的 62.0。这表明两者在“能否将轨迹推进至高进度区间”方面并无本质差异，差距主要体现在“能否将已获得的高进度稳定转化为最终任务完成”上。综合 Avg MP 与 MC@100 分析可知，GigaBrain-0.1 在任务末段的收敛能力上仍存在不足。

值得注意的是，回退、停滞与推进深度是相互关联的。例如，在 RoboChallenge 中，RDT-1B 的 Avg MC@100 仅为 15.0，而其平均累积回退面积（Avg CRA）也低至 5.3，属于总榜中最低水平。这并非意味着其执行过程更平滑，反而说明其整体推进深度有限，因此较少出现在后期明显回退的情况。

相对地，wall-oss-v0.1 的 Avg MP 仍能达到 59.7，表明它并非完全缺乏推进能力；但其平均停滞率（Avg STR）高达 41.2，显示出更明显的停滞与低效推进现象。低回退或中等进度本身，并不足以说明执行更强或更顺畅。OPD 指标体系的价值，不在于提供彼此孤立的若干指标，而在于通过结果层、过程层与诊断层三层信号的联合刻画，更完整地揭示轨迹的推进状态、执行质量与失效机制。

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式

图：9 个模型在 RoboChallenge Table30 任务上的整体表现。OPD 指标体系提供联合而非孤立的轨迹画像，通过三层信号的统一刻画，揭示模型“走到了哪里”、“走得如何”以及“问题主要出现在什么阶段”。

7. 交互式轨迹审计：指标变化与物理行为对齐

除论文与基准外，项目还提供了交互式轨迹分析界面。用户可在页面中同步查看任务执行视频、进度曲线以及 MC、MP、PPL、CRA、STR 等核心指标，并通过拖动时间轴观察这些指标的实时变化。该模块被定位为单条轨迹的完整时间审计工具：进度的上升、回退与停滞不再仅是抽象曲线，而是能与具体的物理行为逐帧对应。

读者可访问项目主页与博客中的交互式演示，查看单条轨迹的逐帧审计结果。

8. 总结：从“是否完成”走向“如何完成”

PRM-as-a-Judge 的意义，不仅在于对传统成功率指标进行补充，更在于将机器人评测从终局判定推进至过程刻画。借助任务条件化的进度势能、OPD 三层指标体系以及 RoboPulse 的细粒度验证，这项工作将原本被压缩为单一二元标签的执行轨迹，重新表达为可解释、可比较、可诊断的过程信号。

对于日益长程和复杂的具身操作任务而言，单一的二元标签已难以完整反映模型行为的真实差异。相较于只比较“做没做成”，过程级审计更关注“推进到了哪里”、“成功得是否高效稳定”以及“失败主要由何种机制导致”。从这个意义上说，PRM-as-a-Judge 提供的不仅是一套新的指标系统，更是一种更适合长程机器人任务的评测视角。

研究团队表示：“我们呼吁更多基准组织者与模型开发者在提交榜单结果的同时，公开执行视频与轨迹数据，推动机器人评测从‘只看分数’进一步走向‘可回放、可核查、可诊断’。只有当轨迹本身是开放和透明的，我们才能真正有机会比较不同策略在推进深度、执行质量与失败模式上的真实差异，而非仅仅停留在最终是否完成任务的单点结论上。”

“我们也期待与更多基准团队和研究者协作，将这种面向过程的稠密审计范式扩展到更广泛的机器人任务中，共同建立一个跨基准、可复核、可演进的透明评测生态。评测不应只是终点处的一次裁决，更应成为理解机器人行为、诊断系统能力边界、推动社区共同进步的基础设施。”

作者简介

本文第一作者冀昱衡，为中国科学院自动化研究所博士生，研究方向为具身智能与基础模型，相关成果已在 NeurIPS、CVPR、AAAI、ACM MM 等国际顶级会议上发表。通讯作者为仉尚航助理教授和郑晓龙研究员。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30098

告别二元成功率！PRM-as-a-Judge：机器人长程任务的细粒度审计新范式

1. 二元成功率为何不足以评估长程任务？

2. 从结果判定到过程级评测

3. 一个合格的密集评估器需满足什么条件？

4. OPD：将轨迹分解为三层可解释信号

5. RoboPulse：评估器是否真的具备细粒度分辨能力？

2. 细粒度评估基准：RoboPulse

3. 应用：用 OPD 框架重新审视真实策略轨迹

3.1 失败究竟发生在哪个阶段？

3.2 成功与成功，并不等价

3.3 “失败”也有不同的内在机制

3.4 差异体现在指标的联合画像中

7. 交互式轨迹审计：指标变化与物理行为对齐

8. 总结：从“是否完成”走向“如何完成”

相关推荐

Grok-4-1-fast-non-reasoning评测：成本骤降69%但准确率暴跌14%，极端优化策略引质疑

2025年大模型评测工具终极指南：五大工具深度解析与选型策略

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

小米开源MiMo-V2-Flash实测：零成本大模型在长上下文与推理效率间的新平衡

智谱GLM-4.7深度评测：Agentic Coding新标杆还是仍有短板？