告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

作者介绍
* 刘梦源:北京大学深圳研究生院研究员,研究方向为人类行为理解与机器人技能学习。
* 盛举义:北京大学在读博士研究生,研究方向为机器人操作技能学习方法。
* 王梓懿、李培铭:北京大学在读硕士研究生,研究方向为视频理解分析。
* 徐天铭:北京大学在读硕士研究生,研究方向为机器人操作技能学习方法。
* 徐天添:中国科学院深圳先进技术研究院集成所研究员,研究领域为磁控微型机器人导航、机器人的协同控制。
* 刘宏:北京大学深圳研究生院教授,研究领域为计算机视觉与智能机器人、机器学习与智能人机交互。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

论文信息
* 标题:Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
* 论文链接:https://arxiv.org/abs/2601.18723
* 代码链接:https://github.com/LogSSim/TERM-Bench

随着视觉-动作(VA)与视觉-语言-动作(VLA)模型的快速发展,机器人模仿学习取得了显著进展。然而,当前的评估体系正面临严重的“信任危机”。现有评估范式主要依赖二元的“成功率”,这一简单指标掩盖了两个关键问题:
* 执行质量的模糊性:同样是“成功”完成任务,模型A可能动作僵硬、伴随剧烈抖动,而模型B则流畅自然。传统的二元评价无法区分二者,导致潜在的安全隐患被忽视。
* 来源的模糊性:在一些展示视频中,不仅难以判断动作是否由自主策略生成,甚至难以分辨其是否由人类远程操作“冒充”。

为解决上述评估信任危机,北京大学与中国科学院的研究团队提出了一套完整的解决方案:Eval-Actions评估基准AutoEval自动化评估架构。该方案旨在从“细粒度动作质量”和“来源真实性”两个维度,重塑机器人操作的评估标准。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

图1:(上) 评估危机:现有二元指标掩盖了执行质量(如“抖动成功”与“平滑成功”的区别)和来源真实性(难以区分策略生成与人类遥操作)的模糊性。(下) 解决方案:Eval-Actions基准与AutoEval架构(绿色部分)相结合,填补了这两大空白,实现了精准的细粒度质量评估与鲁棒的来源验证,显著优于传统的通用VLM(红色部分)。

填补空白:首个面向评估完整性的Eval-Actions基准

表格1:机器人操作数据集的对比分析。与以模型训练为核心、追求原始轨迹数据量最大化的数据集不同,Eval-Actions以标注密度最大化为设计目标,其独特优势在于提供故障场景数据、混合轨迹数据源。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

为打破现有数据集仅关注“成功演示”的局限,研究团队构建了Eval-Actions基准。与Open X-Embodiment等以训练为目的的数据集不同,Eval-Actions专为诊断性评估而生。
* 包含失败场景:数据集不仅包含成功轨迹,还创新性地引入了约2.8k条失败数据。这对于模型学习错误恢复和鲁棒的失败检测至关重要。
* 混合来源验证:数据集混合了人类遥操作数据与多种策略(VA及VLA模型)生成的轨迹,为验证“来源真实性”提供了数据基础。
* 多维监督信号:提供了专家评分、排序引导以及思维链(Chain-of-Thought, CoT)三种层次的注释,支持从数值评分到逻辑推理的全方位评估。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

图2:Eval-Actions基准概览。包含从单臂到双臂的150+任务,并提供细粒度的质量雷达图与CoT注释。

AutoEval:双引擎驱动的自动化评估专家

为实现对机器人行为的精准诊断,团队设计了AutoEval框架。它并未采用单一模型,而是针对不同的评估维度,创新性地提出了AutoEval-SAutoEval-P两种架构,分别解决“看不清细节”和“胡乱推理”的难题。

1. AutoEval-S:精准捕捉动作细节

传统的VLA模型往往只能处理稀疏的关键帧,容易遗漏动作执行过程中的抖动或停顿。AutoEval-S引入了时空聚合策略。
* 高频细节压缩:它并未简单丢弃中间帧,而是将高频的运动细节“压缩”进视觉Token中,最大化了时间信息的密度。
* 物理信号校准:辅以运动学校准信号,直接利用速度和加速度方差等物理数据来校准视觉评估,确保评分精准反映动作的平滑度与安全性。

2. AutoEval-P:具备逻辑推理能力的“考官”

当需要模型输出思维链进行解释时,传统模型常出现“幻觉”,即推理逻辑与打分不一致。AutoEval-P引入了组相对策略优化范式。
* 强制言行一致:通过强化学习,AutoEval-P被训练在生成评分的同时,必须给出逻辑自洽的物理推理。其混合奖励函数同时约束内容的准确性和格式的规范性,有效消除了大模型的推理幻觉。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

图3:上分支(AutoEval-S):专为评分与排序设计。采用时空聚合策略将高频运动细节压缩至视觉Token,并辅以物理校准信号,精准捕捉动作中的细微抖动。下分支(AutoEval-P):专为思维链推理设计。引入GRPO强化学习范式,通过混合奖励函数强制模型生成逻辑自洽的物理推理与评分,有效解决大模型的“幻觉”问题。

实验结果:树立可信评估新标准

在Eval-Actions Small子集上的广泛实验表明,AutoEval框架在多项指标上展现出卓越性能,全面超越了InternVL、QwenVL等通用大模型。

1. 极高的来源辨别力:让“造假”无处遁形

AutoEval能够以99.6% 的准确率区分视频是来自真实的策略生成还是人类遥操作,有效解决了“来源模糊性”问题。

2. 细粒度评分高度对齐人类

在衡量动作平滑度、安全性和效率的综合质量评分上,AutoEval-S与人类专家的判断高度一致。
* 在专家评分协议下,SRCC达到0.81
* 在排序引导协议下,SRCC高达0.84,显著优于未微调的InternVL3.5-4B和QwenVL3-4B。

表格2:Eval-Actions基准上的性能对比。在专家评分、排序引导及思维链三种协议下,AutoEval均取得了SOTA性能。特别是在RG协议下,AutoEval-S的评分相关性达到0.84,来源预测准确率高达99.6%,远超基线模型。

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

图4:细粒度动作质量评估的定性对比。

3. 跨构型泛化能力

即使在未见过的Franka机器人数据上,AutoEval依然保持了稳健的评估能力。AutoEval-S在新形态机器人上仍能达到0.75的评分相关性和90% 的来源预测准确率,展现了强大的跨实体泛化潜力。

表格 3 AutoEval 在未见构型 Franka 机械臂数据上的泛化实验结果

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

  1. 区分远程操作和策略执行视频

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证
告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19548

(0)
上一篇 2026年1月31日 上午9:23
下一篇 2026年1月31日 上午11:56

相关推荐

  • 强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

    在人工智能领域,大语言模型的快速发展正将“记忆”问题推向技术前沿。当前,即使是最先进的GPT-4.1等模型,在处理持续增长的交互时,仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令,导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现,标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学…

    2025年11月7日
    20400
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    17300
  • 从通用炫技到垂直深耕:斑马口语如何以AI Agent技术重塑英语教育新范式

    2025年,AI产业的焦点正从实验室的惊艳演示转向商业价值的深度挖掘。当OpenAI、Google等巨头仍在探索多模态大模型的通用可能性时,一场决定AI真正落地效能的战役已在教育、医疗、客服等垂直领域悄然打响。在这场产业化竞赛中,斑马推出的业内首个实现AI外教一对一教学的「斑马口语」产品,不仅标志着AI Agent在垂直行业的实质性突破,更以系统性的技术攻坚…

    2025年11月18日
    17600
  • 揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

    马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统 目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统。 开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。 我们移除了所有人工设计特征和绝大多数启发式规则。 消息一出,社区反响热烈,一条获得高赞的评论写道: 不可思议!没有其他平台能做到如此透明。 马斯克本人也迅速转发了𝕏工程团队的原帖,但他此…

    2026年1月21日
    21200
  • 欧洲AI新锐Mistral AI再发力:Devstral 2代码模型与Vibe CLI工具深度解析

    在人工智能领域竞争日益激烈的背景下,欧洲的Mistral AI近期以惊人的发布频率再次成为行业焦点。继一周前发布Mistral 3系列模型后,该公司又迅速推出了下一代代码模型系列Devstral 2以及原生命令行工具Mistral Vibe CLI。这一系列动作不仅展示了欧洲在AI前沿技术研发上的加速态势,也为全球开发者社区带来了新的技术选择。 Devstr…

    2025年12月10日
    21000