告别单一成功率：北大团队推出机器人操作评估新范式，实现细粒度质量与来源真实性双重验证

作者介绍
* 刘梦源：北京大学深圳研究生院研究员，研究方向为人类行为理解与机器人技能学习。
* 盛举义：北京大学在读博士研究生，研究方向为机器人操作技能学习方法。
* 王梓懿、李培铭：北京大学在读硕士研究生，研究方向为视频理解分析。
* 徐天铭：北京大学在读硕士研究生，研究方向为机器人操作技能学习方法。
* 徐天添：中国科学院深圳先进技术研究院集成所研究员，研究领域为磁控微型机器人导航、机器人的协同控制。
* 刘宏：北京大学深圳研究生院教授，研究领域为计算机视觉与智能机器人、机器学习与智能人机交互。

论文信息
* 标题：Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
* 论文链接：https://arxiv.org/abs/2601.18723
* 代码链接：https://github.com/LogSSim/TERM-Bench

随着视觉-动作（VA）与视觉-语言-动作（VLA）模型的快速发展，机器人模仿学习取得了显著进展。然而，当前的评估体系正面临严重的“信任危机”。现有评估范式主要依赖二元的“成功率”，这一简单指标掩盖了两个关键问题：
* 执行质量的模糊性：同样是“成功”完成任务，模型A可能动作僵硬、伴随剧烈抖动，而模型B则流畅自然。传统的二元评价无法区分二者，导致潜在的安全隐患被忽视。
* 来源的模糊性：在一些展示视频中，不仅难以判断动作是否由自主策略生成，甚至难以分辨其是否由人类远程操作“冒充”。

为解决上述评估信任危机，北京大学与中国科学院的研究团队提出了一套完整的解决方案：Eval-Actions评估基准与AutoEval自动化评估架构。该方案旨在从“细粒度动作质量”和“来源真实性”两个维度，重塑机器人操作的评估标准。

图1：(上) 评估危机：现有二元指标掩盖了执行质量（如“抖动成功”与“平滑成功”的区别）和来源真实性（难以区分策略生成与人类遥操作）的模糊性。(下) 解决方案：Eval-Actions基准与AutoEval架构（绿色部分）相结合，填补了这两大空白，实现了精准的细粒度质量评估与鲁棒的来源验证，显著优于传统的通用VLM（红色部分）。

填补空白：首个面向评估完整性的Eval-Actions基准

表格1：机器人操作数据集的对比分析。与以模型训练为核心、追求原始轨迹数据量最大化的数据集不同，Eval-Actions以标注密度最大化为设计目标，其独特优势在于提供故障场景数据、混合轨迹数据源。

为打破现有数据集仅关注“成功演示”的局限，研究团队构建了Eval-Actions基准。与Open X-Embodiment等以训练为目的的数据集不同，Eval-Actions专为诊断性评估而生。
* 包含失败场景：数据集不仅包含成功轨迹，还创新性地引入了约2.8k条失败数据。这对于模型学习错误恢复和鲁棒的失败检测至关重要。
* 混合来源验证：数据集混合了人类遥操作数据与多种策略（VA及VLA模型）生成的轨迹，为验证“来源真实性”提供了数据基础。
* 多维监督信号：提供了专家评分、排序引导以及思维链（Chain-of-Thought, CoT）三种层次的注释，支持从数值评分到逻辑推理的全方位评估。

图2：Eval-Actions基准概览。包含从单臂到双臂的150+任务，并提供细粒度的质量雷达图与CoT注释。

AutoEval：双引擎驱动的自动化评估专家

为实现对机器人行为的精准诊断，团队设计了AutoEval框架。它并未采用单一模型，而是针对不同的评估维度，创新性地提出了AutoEval-S和AutoEval-P两种架构，分别解决“看不清细节”和“胡乱推理”的难题。

1. AutoEval-S：精准捕捉动作细节

传统的VLA模型往往只能处理稀疏的关键帧，容易遗漏动作执行过程中的抖动或停顿。AutoEval-S引入了时空聚合策略。
* 高频细节压缩：它并未简单丢弃中间帧，而是将高频的运动细节“压缩”进视觉Token中，最大化了时间信息的密度。
* 物理信号校准：辅以运动学校准信号，直接利用速度和加速度方差等物理数据来校准视觉评估，确保评分精准反映动作的平滑度与安全性。

2. AutoEval-P：具备逻辑推理能力的“考官”

当需要模型输出思维链进行解释时，传统模型常出现“幻觉”，即推理逻辑与打分不一致。AutoEval-P引入了组相对策略优化范式。
* 强制言行一致：通过强化学习，AutoEval-P被训练在生成评分的同时，必须给出逻辑自洽的物理推理。其混合奖励函数同时约束内容的准确性和格式的规范性，有效消除了大模型的推理幻觉。

图3：上分支（AutoEval-S）：专为评分与排序设计。采用时空聚合策略将高频运动细节压缩至视觉Token，并辅以物理校准信号，精准捕捉动作中的细微抖动。下分支（AutoEval-P）：专为思维链推理设计。引入GRPO强化学习范式，通过混合奖励函数强制模型生成逻辑自洽的物理推理与评分，有效解决大模型的“幻觉”问题。