提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

 

机器人操作正在从传统的结构化工业场景,迈向更为开放和复杂的真实世界环境。与执行单一的预设动作不同,现实中的任务往往涉及更长的操作链条、更复杂的物体交互过程,以及更多难以预测的外部干扰。例如,一次抓取未能完全夹紧、目标物体被轻微碰撞偏移、或者双臂交接时姿态出现微小偏差,这些都可能使后续步骤偏离原有的执行计划。

因此,一个可靠的机器人操作系统,不能仅仅规划一条“理想路线”,还必须具备在执行过程中应对各种意外情况的能力。

当前的主流方法,通常是在失败发生之后才进行检测、分析,并重新规划恢复动作。然而,在长程任务中,这种事后补救的方式会引入额外的延迟,并容易导致机器人陷入反复回退和重新执行的循环,效率低下。

近期,来自香港中文大学(深圳)、跨维智能与深圳河套学院的研究团队提出了 AgentChord,这是一个专门用于机器人操作失败恢复的智能体系统。该研究成果已被机器人领域的旗舰会议 Robotics: Science and Systems (RSS) 2026 接收,并且相关代码已经开源。

AgentChord 试图解决一个非常直接的问题:机器人能否像人类一样,在动手操作之前就预先想好“如果出现问题该如何应对”?它并非将失败恢复留到执行过程中临时重新规划,而是提前预测可能发生的失败,并将相应的恢复动作直接写入任务图

这样一来,一旦在线监控系统检测到异常,机器人就可以立即切换到已经预编译好的恢复分支,纠正当前状态后,继续完成剩余任务。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

  • 论文标题:From Reaction to Anticipation: Proactive Failure Recovery through Agentic Task Graph for Robotic Manipulation
  • 论文地址:https://arxiv.org/abs/2605.11951
  • 项目主页:https://edem-ai.github.io/AgentChord/
  • 项目代码:https://github.com/EDEM-AI/AgentChord

为什么不能等失败后再想办法?

人类在执行操作任务时,很少会从零开始“重新规划”。比如,倒水时杯子歪了,我们会顺手扶正;瓶子快要滑落时,我们会立刻调整握持姿势;双手交接物体没有对准时,一只手会稍微退回,另一只手再靠近。这个过程通常非常迅速,并且不会打断整个任务的进程。

而许多现有的机器人系统采用的是另一套流程:先执行动作,检测到失败,然后调用多模态大模型分析原因,再生成恢复动作。这个思路在简单任务中或许可行,但一旦面对长程任务,问题就会变得非常突出。

一方面,多次调用大模型会带来显著的延迟。当系统完成观察、推理和重新规划时,错误可能已经扩大,例如水瓶已经倒下,或者物体已经滚落到难以抓取的位置。

另一方面,如果不重新调用大模型,只是简单地回退到上一个节点并重新执行,也未必有效。杯子倒了需要扶正,而不是重复“接近杯子”的动作;交接失败需要重新协调两只手的位置,也不是简单地退回上一帧。

AgentChord 的出发点,正是将“失败恢复”从一种事后补救措施,转变为执行前就规划好的一部分。

AgentChord:将任务、失败与恢复整合进同一张图

AgentChord 将一个机器人操作任务表示为有向任务图。图中的节点代表语义子目标,例如“抓住瓶子”、“移动到杯子上方”、“完成倾倒”;而边则表示从一个子目标到下一个子目标的动作转换。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

在这张任务图上,AgentChord 组织了三个智能体角色。

任务结构化智能体负责理解语言指令和初始场景,首先构建出一条正常完成任务的主线。可以把它理解为先写出“应该怎么做”的任务骨架。

恢复编排智能体会沿着这条主线检查每一个关键步骤,提前预想可能出现的错误情况:物体滑落、目标位置被挪动、夹爪没有真正夹紧、物体倾斜、双臂相对位置失准等。针对这些潜在的失败,它会插入对应的恢复节点和恢复边,并指定恢复完成后应该回到任务图中的哪个后续位置。

执行编译智能体则将这些名义动作和恢复动作都编译成机器人可以执行的程序,同时生成低延迟的监控函数。在执行过程中,系统无需反复询问大模型,而是持续读取物体位姿、点云几何、夹爪开合、关节状态等信号。一旦监控函数被触发,机器人就会直接进入对应的恢复分支。

这里最关键的一点是“前向恢复”。AgentChord 并非鼓励机器人一失败就倒退重来,而是尽量让恢复动作继续朝着最终目标推进。恢复完成后,机器人会重新汇入后续的任务节点,从而避免重复执行已经完成的部分。

这使得 AgentChord 更像是为任务开始前写好的一份带有应急段落的“执行乐谱”:正常动作是主旋律,恢复动作是提前准备好的变奏。何时切换,则由在线监控系统来决定。

仿真与真实机器人实验

研究团队在 EmbodiChain 仿真环境和真实的 CobotMagic 双臂机器人上进行了评估。任务涵盖了单臂倒水、双臂倒水、餐桌整理、方块交接、折叠毛巾、咖啡托盘摆放等六类场景,其中既有刚体物体,也有薄物体和柔性物体;既有单臂操作,也有异步和同步的双臂协作。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

在仿真实验中,团队选取了单臂倒水、双臂倒水和餐桌整理这三类任务,并以不同概率注入物体掉落等扰动。AgentChord 在所有设置下均取得了最高的平均成功率,达到 99.2%;平均执行时间为 41.5 秒,优于 Inner Monologue、DoReMi、ReKep 和 Code-as-Monitor 等基线方法。

这个差距并不仅仅源于“检测更准”。更重要的是,AgentChord 在失败发生前就已经准备好了恢复分支,因此无需在现场重新进行完整的大模型推理和规划流程,也无需反复回退执行。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

真实机器人实验更接近实际部署环境:感知存在噪声,抓取可能失败,人为扰动也更难完全控制。在六个真实任务中,AgentChord 取得了 77.5% 的平均成功率和 92.2 秒的平均执行时间。作为对比,Code-as-Monitor 的平均成功率为 72.5%,平均执行时间为 130.9 秒。

在双臂倒水、方块交接这类需要精细协作的任务中,提前编译恢复分支的优势尤为明显。物体被挪动、掉落或姿态异常后,机器人可以快速进入对应的恢复动作,而不是等待一次新的完整推理。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

论文进一步给出了六类真实任务的多组试验对比:每一行对应一次独立试验,左侧是初始场景,右侧是任务完成后的结果。不同试验中,物体实例、位置、朝向以及外部扰动配置都会变化,但这些变化仍保持在机器人运动学可执行的范围内。

AgentChord 在这些不完全相同的场景中都能完成任务,在真实环境变化和执行不确定性下保持了稳定的恢复与继续执行能力。

提前写好“应急预案”:AgentChord让机器人在动手前就想好如何应对失败

下方的两段执行视频展示了 AgentChord 在真实长程操作中的恢复能力。

在 Handover 任务中,机器人需要先由一侧机械臂抓取方块并送至交接位置,再由另一侧机械臂接手并完成放置。不同于失败发生后再临时重规划,AgentChord 在任务开始前就会预判可能出现的异常,例如交接过程中方块被外力移走,并提前生成对应的恢复分支。

实际执行时,一旦方块在交接前后受到扰动,系统不会重启整条任务流程,而是根据当前所处的任务节点触发相应恢复动作,重新调整双臂位置、夹爪状态和交接关系,再继续完成后续放置步骤。

双臂倒水任务则进一步考验系统的协作能力:一只机械臂需要稳定接水容器,另一只机械臂负责抓取水瓶、移动、对准并完成倾倒。当杯子或水瓶的位置发生变化时,AgentChord 通过在线监控及时发现偏差,并触发预先写入任务图的恢复动作,例如重新抓取、重新对准或调整双臂相对位置,使任务继续向目标推进。

这两段视频直观体现了 AgentChord 的核心思路:失败恢复不是事后重新规划,而是提前准备好的可执行分支。

恢复轨迹也能用来训练策略

AgentChord 的作用并不仅仅在于执行时把任务救回来。它生成的失败恢复轨迹,也可以成为非常有价值的训练数据。

论文在单臂倒水任务中展开了验证:在微调数据总量固定不变的前提下,将一半普通成功轨迹替换为 AgentChord 生成的可恢复失败轨迹。

实验结果表明,Sim2Real-VLA 策略在 50 次扰动测试中的成功次数,由原来的 26/50 提升至 39/50。

这一结果揭示了机器人策略不应仅学习“顺利完成任务”的模式,还应理解“出错后如何继续完成任务”。现实世界中失败难以避免,而高质量恢复轨迹恰好能补足这部分经验。

意义与展望

AgentChord 为机器人操作恢复提供了一种清晰的组织架构:任务执行流程、潜在失败点、失败后的恢复策略、以及恢复后的后续路径,均被整合在同一张可解释的任务图中。

当然,该系统并非完美无缺。它仍依赖大模型提前预判常见失败模式。面对罕见、复合或完全未被覆盖的失败情况时,可能需要额外的诊断与动态补充分支。感知噪声、点云质量以及逆运动学可行性,也会对最终恢复效果产生影响。然而,该框架的模块化设计使其具备良好的扩展性。未来更强大的视觉语言模型、更稳健的三维感知模块、以及更丰富的机器人技能库,均可接入这张恢复增强的任务图。

从家庭服务到实验室自动化,从整理餐桌到复杂双臂装配,机器人迟早要应对各类意外情况。AgentChord 的价值在于,让机器人不再只是失败后的被动补救者,而是在行动启动前,就为可能发生的失败预留好应对路径。

作者介绍

第一作者:徐圣,香港中文大学(深圳)博士生,研究方向涵盖强化学习及其在具身智能中的应用,曾在 RSS、ICLR、ICML、NeurIPS 等顶级会议以第一作者身份发表论文。

通讯作者:刘桂良,香港中文大学(深圳)助理教授,研究方向聚焦具身智能决策与强化学习。在 NeurIPS、ICML、ICLR、RSS、ICRA、TPAMI 等国际机器学习会议与期刊上发表论文 50 余篇,并担任 NeurIPS、ICLR 的领域主席。

 


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36188

(0)
上一篇 3小时前
下一篇 2小时前

相关推荐

  • Sora 2 来袭:生成20秒逼真视频,正面碾压谷歌Veo 3?

    OpenAI 正式推出新一代 AI 视频模型 Sora 2,能直接生成长达 20 秒的 1080p 高清视频,在物理真实感、可控性和音画同步方面显著提升。实测显示,其生成效果逼真,但在复杂动作和中文理解上仍有瑕疵。与竞争对手谷歌 Veo 3 相比,双方在各场景下互有胜负。同时,OpenAI 推出了类似 TikTok 的 Sora 应用,旨在建立产品生态,但其“全 AI 视频流”模式能否成功,仍有待观察。

    2025年10月1日
    1.1K00
  • AionUi:本地开源AI协作平台,图形化整合Claude Code、Gemini CLI等多模型命令行工具

    AionUi 在 GitHub 上已经获得 12K 的 Star。 它是一个本地、免费、开源的 AI 协作平台,对标 Anthropic 的 Cowork,但完全本地可部署、免费开源。 AionUi 并非简单的浏览器聊天界面,而是一个系统级的 AI 协作工具。 其核心是为 Claude Code、Gemini CLI 等命令行 AI 智能体提供了一层统一的图…

    2026年2月7日
    92400
  • Meta WorldGen:文本驱动3D世界生成的革命性突破与产业影响分析

    在生成式AI技术快速演进的浪潮中,Meta最新发布的WorldGen研究标志着3D内容创作领域迈入了全新的范式。这项技术不仅实现了从简单文本提示到完整可交互3D世界的端到端生成,更在几何一致性、空间连贯性和功能实用性方面取得了突破性进展,为游戏开发、虚拟仿真、沉浸式社交等应用场景带来了革命性的可能性。 从技术架构层面分析,WorldGen采用了多阶段融合的创…

    2025年11月22日
    39200
  • 春晚舞台上演机器人功夫秀:宇树科技全自主集群控制技术全球首秀

    这已经是宇树机器人第三次亮相春晚,却带来了前所未有的震撼。 在今年的央视春节联欢晚会上,全球领先的宇树科技将舞台变成了新技术的展示场。一群活力十足的人形机器人上演了一出武术表演《武 BOT》,全程镜头连贯,几乎没有切换。 表演中的人形机器人型号包括现象级的 G1 以及刚刚发布的 H2。它们在快速奔跑中完成了穿插变阵和复杂的武术动作。这种高动态、高协同的全自主…

    2026年2月19日
    54600
  • 量子力学百年之辩:从哥本哈根到关系性与主观贝叶斯——观察者的回归与物理实在的重构

    量子力学自诞生以来,其数学形式体系已得到无数实验验证,成为现代物理学的基石。然而,关于其背后物理实在的诠释问题,却引发了长达一个世纪的深刻争论。这场争论的核心在于:量子理论描述的究竟是独立于观察者的客观世界,还是观察者与世界互动中形成的认知图景?2025年,在黑尔戈兰岛举行的量子力学百年纪念会议上,关系量子力学(RQM)与主观贝叶斯主义(QBism)的倡导者…

    2025年12月18日
    43200