实现具备人类水平的灵巧操作能力,是机器人学领域的核心挑战之一。尽管多指灵巧手在硬件上已具备潜力,但由于接触物理的复杂性和非理想的驱动机制,训练能够直接部署在真实硬件上的控制策略仍然非常困难。
针对这一关键问题,一项研究论文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation》提出了一个实用的强化学习框架。
该研究的核心贡献在于提出了一套完整的仿真到现实(Sim-to-Real)解决方案。它通过结合高密度触觉反馈和基于电机电流估算的关节力矩感知,显式地调节物理交互过程。该框架不仅解决了高分辨率触觉仿真的计算瓶颈,还通过数据驱动的执行器建模降低了对昂贵力矩传感器的依赖,最终实现了在纯仿真环境中训练的策略。训练完成后,策略能够在真实的五指灵巧手上实现零样本部署,即无需额外的真实数据微调便可直接运行。

Figure 1:融合触觉感知与关节力矩的全状态策略框架
一、三大核心技术:打通从仿真到现实的感知与驱动链路
论文的核心在于如何克服仿真与现实之间在触觉感知、接触物理和执行器动力学方面的巨大差异,从而训练出能够进行力控抓取和灵巧操作的全状态策略。
该研究构建了一个由三大核心技术组成的完整体系,以实现从仿真训练到真实部署的无缝衔接。
1. 计算高效的触觉仿真:兼顾高分辨率与高帧率
高保真度的触觉仿真是学习接触丰富技能的长期障碍。传统的有限元分析或软体仿真计算成本过高,难以满足强化学习对大规模并行和高帧率的需求。
该研究提出了一种基于距离场的快速触觉仿真方法。通过并行正向运动学,计算密集的虚拟触觉单元阵列与物体表面之间的距离。这种方法不仅能提供强化学习所需的高频信号,还保留了关键的接触信息。这种设计在保证物理合理性的同时,极大地提升了仿真效率,使策略能在仿真中充分探索复杂的接触动力学。

Figure 2:接触点建模与材料属性
通过对比仿真与真实世界中的接触数据,可以发现两者在接触点分布和接触力大小上表现出高度的一致性,证明了该触觉仿真方法的高保真度。
2. 电流-力矩校准:无需力矩传感器的精准力控
大多数商用灵巧手采用连杆或腱绳等传动结构,缺乏关节级力矩传感器,通常只能提供电机电流测量值。仿真中的理想力矩控制与真实电机的非理想特性之间存在巨大差异。
为解决这一问题,研究引入了电流-力矩校准机制。通过在准静态条件下拟合电机电流与接触力、仿真力矩与接触力之间的线性关系,建立了一个可靠的“电流到力矩”映射。这种数据驱动的校准方法,使得策略在真实部署时,能够将读取到的归一化电流信号作为“关节力矩”输入,从而在无需物理力矩传感器的情况下,实现对交互力的显式感知和控制。

Figure 3:真实世界电流-力与仿真力矩-力的校准与对齐
3. 执行器动力学建模与随机化:提高仿真到现实的鲁棒性
真实电机存在诸多非理想特性,如齿轮间隙、力矩-速度饱和以及摩擦力等。如果仿真中忽略这些特性,训练出的策略在真实硬件上往往会表现脆弱。
该研究在仿真中显式地对这些执行器动力学进行了建模,并对关键参数进行了广泛的域随机化。这种策略迫使控制策略适应各种硬件缺陷和公差变化,显著提高了仿真到现实转移的鲁棒性。
二、全状态策略与创新训练范式:实现力控自适应抓取与手内物体旋转
基于上述仿真到现实框架,研究团队成功训练并部署了两种关键的灵巧操作技能:力控自适应抓取和手内物体旋转。
1. 倒置“接物”训练范式:提升样本效率与鲁棒性
传统的桌面抓取训练范式往往面临样本效率低、奖励工程复杂以及容易产生“奖励黑客”行为等问题。为此,研究团队提出了一种创新的倒置“接物”训练设置。
在这种设置下,灵巧手手心向上固定,物体从上方随机掉落。这种利用重力自然将物体引入工作空间的方法,极大地简化了探索过程,使策略能够专注于学习手指协调和接触后的力调节。同时,这种动态接物过程鼓励形成包络式、多点接触的抓取姿态,自然抑制了不稳定的边缘抓取策略,促使策略学习到更接近人类偏好的稳定抓取方式。
2. 力自适应抓取:精准的力矩与接触力控制
在力自适应抓取任务中,策略需要根据用户输入的力指令,动态调节各个手指的抓取力。
研究表明,结合接触力惩罚和关节力矩惩罚的复合奖励函数是实现稳健力控的关键。仅惩罚接触力会导致关节力矩不足,抓取不稳;仅惩罚关节力矩则无法有效将力传递到指尖。两者的结合使得策略能够同时协调关节驱动和指尖接触,实现与指令高度线性相关的精准力控。

Figure 4:不同奖励设置下,关节力矩和接触力随力指令的变化
3. 手内物体旋转:触觉与本体感觉的深度融合
手内旋转任务要求策略通过协调的手指步态,在保持稳定接触的同时,将物体绕指定轴旋转。
消融实验揭示了不同感知模态的重要性。结果显示,包含受力加权接触中心、接触力和6D姿态表示的完整观测配置取得了最佳性能。移除任何一种触觉信息都会导致性能显著下降,而完全没有触觉反馈的基线策略几乎无法完成任务。这充分证明了高分辨率触觉反馈在复杂手内操作中的不可替代性。

Figure 5:真实世界与仿真环境中的手内操作任务可视化结果
三、硬件支撑:五指灵巧手
该框架能够实现零样本部署,离不开底层硬件的支撑。其硬件特性与算法框架形成了协同,在实际应用中展现出优势。

Figure 6:五指灵巧手
1. 高分辨率触觉阵列:捕捉精细接触,破解手内操作感知瓶颈
1. 高分辨率全包络触觉感知:实现复杂操作的关键
DexManip 论文的消融实验表明,高分辨率的触觉反馈(接触中心与接触力)是实现手内物体旋转等复杂操作的决定性因素。实验平台在每个手指端配备了 270° 环绕的高分辨率触觉阵列传感器(单指触觉点 > 100 个)。相比于传统的压阻类平板型传感器,这种全包络的曲面阵列能够无死角地捕捉物体在指尖滚动、滑动时的微小接触变化。结合高精度的力觉感知能力,该平台为 DexManip 策略提供了极其丰富且精准的观测输入,使其在处理不规则物体或执行精细的「指尖步态」时游刃有余。
2. 高精度 URDF 与触觉仿真模型的无缝对接:缩小现实鸿沟
DexManip 框架的核心突破在于其计算高效的基于距离场的触觉仿真。这一算法的成功高度依赖于仿真模型与真实物理世界的一致性。实验平台提供了极高精度的 URDF 模型,不仅精确描述了运动学连杆和动力学参数,还完美映射了真实传感器的空间分布。这种「数字孪生」级别的模型支持,使得 DexManip 在仿真中计算的虚拟触觉单元能够与真实传感器阵列实现 1:1 的精准对齐,从而大幅降低了仿真到现实的迁移难度,确保了纯仿真训练策略在真实硬件上的有效部署。
3. 全直驱架构与电流-力矩校准的完美契合:实现精准力控
在力自适应抓取任务中,DexManip 提出通过「电流-力矩校准」来替代昂贵的物理力矩传感器。实验平台采用的全直驱电机架构为这一算法提供了理想的硬件基础。全直驱设计从根本上消除了传统减速器带来的摩擦、迟滞和非线性干扰,使得电机的相电流与输出力矩之间保持着极高的线性相关性。这不仅让 DexManip 的电流-力矩校准过程更加精确可靠,还赋予了灵巧手较高的力控带宽和灵敏的动态响应能力,使其能够根据不同的力指令,精准地调节抓取力度,安全地操作易碎或柔性物体。
Figure 7:对训练中未见过的不规则形状物体进行力自适应抓取
这一成果标志着灵巧操作技术在克服仿真到现实鸿沟方面取得了关键突破。通过提供一套无需昂贵力矩传感器和高计算成本触觉仿真的实用方案,该研究大幅降低了基于力的灵巧操作研究的门槛,为多指灵巧手在复杂场景中的广泛应用铺平了道路。
参考文献
[1] Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation. 2025.
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27368


