UC伯克利团队提出人形机器人全身协同新方案
在家庭厨房自主使用洗碗机,或在办公室边移动边擦拭白板,这些对人类而言稀松平常的场景,对人形机器人来说却是需要协调全身数十个关节的“高难度挑战”。
近日,加州大学伯克利分校的研究团队在arXiv上发表了题为《Coordinated Humanoid Manipulation with Choice Policies》的论文,提出了一种结合“模块化教学”与“智能选动作”的创新方法,旨在破解人形机器人全身协同操作的核心难题,为其融入真实人类环境铺平道路。

阻碍人形机器人走进日常生活的两大困境
人形机器人被寄予厚望,有望在家庭、办公等非结构化环境中协助人类工作。然而,两个关键难题长期阻碍其走出实验室:
难题一:全身协同难,“教学数据”获取成本高
诸如使用洗碗机、移动擦白板这类“长时连续任务”,要求机器人同时协调头部(视觉定位)、双手(抓握操作)和腿部(移动平衡),实现类似人类的“眼到手到、脚步稳健”。
传统的“遥操作”教学模式需要操作员同时控制机器人几十甚至上百个关节,不仅操作难度极大、极易导致操作员疲劳,还难以收集到高质量、可用于学习的演示数据。没有可靠的“示范”,机器人自然难以学会复杂的协同动作。
难题二:动作“灵活性”与“反应速度”难以兼得
人类执行同一任务往往有多种可行方式(例如拿盘子,既可五指托举,也可拇指扣边),这种“动作多样性”是机器人模仿人类的关键难点。
传统解决方案存在明显短板:以“行为克隆”为代表的方法过于僵硬,机器人只能学习单一固定动作,场景稍有变化便会失灵;而以“扩散策略”为代表的方法则过于迟钝,虽然能生成多种动作选项,但计算延迟高,无法满足实时操作的需求(例如可能错过插入盘子的最佳时机)。
双管齐下:以“模块化教学+智能选动作”破解困境
针对上述问题,伯克利团队摒弃了“复杂控制一刀切”的传统思路,提出了“模块化简化教学”与“多候选智能选动作”相结合的组合方案。
1. 简化“教学”:模块化遥操作降低门槛
研究团队将机器人的全身控制拆分为四个易于操作的独立模块,操作员使用VR手柄即可操控,无需专业技能:

- 手眼协调模块: 机器人头部会跟随手部动作自动转动,确保视觉始终聚焦于操作区域。
- 手部抓握模块: 扣动扳机键触发“力量抓握”,拨动摇杆可微调拇指位置,实现精准的力度控制。
- 手臂跟踪模块: VR手柄的姿态直接映射到机器人手臂,实现“手柄动,手臂跟”的直观控制。
- 全向移动模块: 切换摇杆模式后,可控制机器人前后、左右移动或原地转弯。
这种设计大幅降低了操作门槛,操作员约10分钟即可上手,既能减轻疲劳,又能高效收集大量高质量的演示数据,相当于为机器人配备了高效的“专属家教”。
2. 优化“决策”:Choice Policy算法实现实时最优选择
团队设计了“多候选动作生成+实时打分筛选” 的机制。机器人会并行生成多个可行的动作方案(例如拿盘子的三种不同姿势),随后通过训练好的模型为每个方案即时评分,并瞬间选出最优解。
这一过程模拟了人类快速决策的思维模式,在保留动作多样性的同时,确保了极快的反应速度,从而解决了“僵硬”与“迟钝”的核心矛盾。

研究方法:算法与硬件的深度协同
这项研究的成功离不开算法创新与硬件性能的紧密结合。星动纪元全尺寸双足人形机器人星动STAR1的硬件特性,为算法的实际落地提供了关键支撑。

1. 高自由度与精准操控,适配模块化需求
星动STAR1搭载了两只星动XHAND1灵巧手,每只手具有12个全主动驱动自由度。这使得手指能够执行精细灵活的动作,完美匹配“手部抓握模块”对精准力控的需求。同时,其仿生手臂的7自由度高刚性设计,能够快速、准确地响应“手臂跟踪”指令。
2. 全向移动与稳定平衡,支撑移动操作
执行“边走边操作”的任务对机器人腿部性能要求极高。星动STAR1每条腿具备6个自由度,支持全向移动,恰好适配遥操作的“移动模块”。其内置的姿态传感器和底层控制器能实时调整关节力度,确保机器人在移动中保持稳定,这是实现“移动与操作深度融合”的硬件基础。
3. 多传感器融合,赋能手眼协调
手眼协调是完成长时任务的关键。星动STAR1头部搭载的RGB-D相机能够快速捕捉目标位置信息,并将视觉数据实时同步给操作模块,实现“眼睛看到哪里,手就对准哪里”,显著提升了在动态环境中的操作成功率。
4. 高鲁棒性设计,保障实验连续性
研究需要通过多次连续试验验证算法稳定性。星动STAR1全身共55个驱动自由度提供了充足的运动冗余,结合抗干扰的硬件设计,有效减少了实验过程中的故障,确保了高质量数据持续、稳定地收集。

实验结果:新方案显著优于传统方法
团队在洗碗机装载和擦白板两个真实场景中进行了大量实验,结果清晰展示了新方案的优势。
1. 核心任务:洗碗机装载(10次连续试验)
该任务需完成“滑动盘子→抓取→手递手→插入卡槽”四个步骤,是对“头-手协同”能力的严峻考验。
- 无手眼协调时: 所有方法在关键的“插入”阶段几乎全部失败,成功率仅为10%-20%,主要原因是视觉遮挡导致机器人无法定位卡槽。
- 有手眼协调时: Choice Policy方法表现突出,抓取成功率达100%,手递手成功率达90%,插入成功率达70%。相比之下,传统“行为克隆”的插入成功率仅为50%,“扩散策略”也因延迟问题,成功率停留在50%。


2. 进阶任务:擦白板操作(5次连续试验)
该任务更为复杂,要求机器人完成“定位并抓取橡皮→移动至白板前→擦拭”的全流程,对全身协同要求极高。
- 传统“行为克隆”: 在抓取、行走、擦拭各环节的成功率均仅为20%,常因平衡或定位问题中断任务。
- Choice Policy: 在各环节的成功率均达到40%,虽是传统方法的两倍,展现了其在“移动中操作”方面的潜力。

3. 关键发现
- 手眼协调至关重要: 实验证明,缺乏有效的视觉引导,即使局部操作再精准,整体任务也极易失败。
- 智能选择机制是优势核心: 消融实验表明,若采用随机选择、动作平均或固定单一动作的策略,插入成功率最高仅30%,而Choice Policy的“打分选最优”机制将其提升至70%。
- 硬件冗余保障算法效能: 星动STAR1的高自由度提供了动作调整的灵活性,而其低延迟特性则确保了“实时选动作”的优势得以发挥。

五、推动人形机器人从“实验室”走向“真实生活”
这项研究不仅是算法层面的突破,更在产业化层面提供了三大核心价值,加速了人形机器人融入日常生活的进程:
1. 降低“教学成本”,普通人也能教机器人干活
模块化遥操作技术使得非专业人员能在10分钟内上手,教会机器人执行任务。这降低了对昂贵专业工程师的依赖,大幅削减了高质量演示数据的收集成本。随着“学习素材”的快速积累,机器人的训练效率将显著提升。
2. 破解落地痛点,适配真实非结构化环境
Choice Policy 算法有效调和了“动作僵硬”与“反应迟钝”的矛盾。结合星动STAR1等高自由度硬件平台,机器人得以在家庭(如装洗碗机、叠衣服)、办公(如擦白板、整理文件)、仓储(如搬运货物)等复杂、非结构化的真实环境中稳健工作,摆脱了对实验室理想化场景的依赖。
3. 搭建“软硬协同”范式,为行业提供可复制模板
该研究验证了“模块化遥操作(数据收集)+ Choice Policy(算法学习)+ 高自由度硬件(执行)”这一组合方案的可行性,为后续人形机器人的研发提供了清晰的技术路径。特别是星动STAR1的硬件设计,证明了“多自由度、精准控制与稳定移动”是完成复杂任务的关键,为硬件厂商指明了优化方向。
4. 提升鲁棒性,应对真实环境的不确定性
在面对“未见过的盘子颜色”、“盘子位置偏移”等超出训练数据范围的场景时,Choice Policy 的成功率依然高于传统方法。这表明机器人具备了应对真实环境不确定性的能力,这是其从“实验室原型”迈向“实用产品”必须跨越的核心门槛。
展望未来,随着该技术框架的持续优化,人形机器人服务日常生活的场景或将很快成为现实:例如,下班回家时,机器人已完成餐具的归置;走进办公室,白板已被清理干净。

论文信息
– 名称:《Coordinated Humanoid Manipulation with Choice Policies》
– 地址:https://arxiv.org/pdf/2512.25072

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18386
