在人工智能智能体领域,决策粒度问题长期困扰着研究者与实践者。现有主流框架往往被束缚在固定的抽象层级——要么如ReAct智能体般陷入细粒度动作的泥潭,缺乏宏观视野;要么如规划-执行分离架构般将高层规划与底层动作硬性割裂,丧失动态调整能力。这种局限严重制约了智能体在复杂、开放环境中的适应性与泛化表现。近期,DeepWisdom研究团队在论文《ReCode: Unify Plan and Action for Universal Granularity Control》中提出了一项突破性解决方案:ReCode(递归代码生成),通过统一代码表征与递归机制,实现了规划与执行在本质上的融合,让智能体首次能够在不同决策粒度间自由、流畅地切换。

**一、现有智能体范式的根本困境:粒度僵化与模块割裂**
当前基于大语言模型的智能体架构主要分为两类,但均存在显著缺陷。第一类是ReAct为代表的细粒度循环智能体。这类系统遵循“观察-推理-行动”的固定循环,每次仅能产生一个原子动作(如“向左移动3米”)。在简单、短期任务中,这种模式尚可应对;但面对需多步骤协调的复杂任务时,智能体极易迷失在冗长的动作序列中。例如,在“找到两个闹钟并放入梳妆台”的家务任务中,ReAct智能体需依次执行“前往书桌1”“检查书桌1”“打开抽屉”“拿起闹钟1”“前往梳妆台”“放下闹钟1”“前往书桌2”等数十步操作。每一步都需独立推理,不仅效率低下、计算成本高昂,更因缺乏高层规划而难以形成“找到第一个后继续寻找第二个”的连贯认知,错误率随链条延长而剧增。
第二类是规划器与执行器分离的架构。这类系统先由规划模块生成高层计划(通常为自然语言描述),再由执行模块转化为具体动作指令。表面看,它引入了规划能力,实则造成了更深层的割裂。规划与执行使用不同“语言”(自然语言 vs. 动作指令),一旦计划偏差或环境变化,两个模块难以协同调整,系统容易陷入僵局。更关键的是,此类方法常依赖预定义模板或固定分解策略(如AdaPlanner预先编写Python序列再迭代修改),严重限制了泛化能力。当遇到训练数据外的新任务类型,或需临时调整粒度时,系统便束手无策。论文尖锐指出,这种强硬分离损害了动态适应性,本质是将人类灵活的多粒度决策能力压缩为机械的流水线作业。

**二、ReCode的核心突破:规划即行动,代码即桥梁**
DeepWisdom团队从人类认知中获得关键洞察:规划与行动并非两种独立过程,而是同一认知活动在不同抽象层级上的表现。准备早餐是高粒度“行动”,敲开鸡蛋是低粒度“行动”,区别仅在于抽象程度,而非本质属性。基于此,ReCode提出了革命性理念:用统一的代码表征来承载所有决策,无论其粒度粗细。高层计划表示为占位符函数(待细化的子任务),低层动作表示为可执行函数,通过递归机制将前者逐步分解为后者,实现粒度的无缝过渡。

技术实现上,ReCode工作流程精妙而高效。首先,系统将任务指令(如“整理房间”)通过规则转换为根占位符函数`solve(instruction, observation)`,其中`instruction`保存任务描述,`observation`承载环境状态。智能体随后展开此函数,生成一段可混合占位符与原始动作的代码。例如,代码可能包含`find_and_take(‘alarmclock’, locations)`(占位符,需进一步分解)与`run(‘go to desk 1’)`(原始动作,可直接执行)。执行时,遇到原始动作即执行;遇到占位符则递归调用智能体,为其生成子代码,直至所有占位符被展开为原子动作序列。

**三、递归架构与关键技术设计**
ReCode的递归设计并非简单循环,而是融合了多项创新机制以确保鲁棒性与效率。其一,统一的变量命名空间允许子任务继承父任务的上下文(如已找到的物体位置),避免了信息孤岛。其二,深度优先的树遍历策略结合最大递归深度限制,防止无限循环与状态爆炸。其三,基于大语言模型的代码生成器仅接收当前函数签名与可用变量作为输入,无需感知全局树结构或执行历史,极大简化了上下文管理,提升了生成质量与速度。其四,内置纠错机制能检测代码执行错误(如动作失败),并触发局部重生成,而非全盘重启,增强了容错性。
这种架构使智能体获得了人类般的粒度控制能力:面对简单步骤直接行动,面对复杂子任务先规划再细化,并可在执行中根据反馈动态调整抽象层级。例如,在导航任务中,智能体可先制定“前往机场”的高层计划,递归细化为“乘出租车至航站楼”,再进一步分解为“路边挥手”“上车”“告知目的地”等动作,过程中若发现堵车,可临时插入“查询替代路线”的新占位符进行优化。

**四、实验验证与产业影响**
论文在AlfWorld、WebShop和CuisineWorld三个标准环境中对ReCode进行了全面评估。结果显示,相比ReAct基线,ReCode将平均任务完成率从47.4%提升至60.8%,同时推理成本降低79%,训练所需样本数减少至原来的27%。这证明ReCode不仅性能更强,且在效率与数据需求上优势显著。成果在推特获得约20万浏览量,引发学术界与工业界广泛关注,项目代码已在GitHub开源。
从产业视角看,ReCode为智能体落地提供了新范式。其统一框架可适配多样场景——从机器人控制(需混合高层任务规划与底层运动控制)到软件自动化(需在API调用与业务流程间切换),均能通过递归代码实现灵活决策。未来,结合大模型持续进化,ReCode有望推动智能体向更通用、更适应复杂现实环境的方向迈进,成为具身智能、自主代理等前沿领域的关键基础设施。
总之,ReCode通过“规划即行动”的哲学洞察与递归代码生成的技术实现,打破了智能体决策的粒度枷锁。它不仅是方法论的创新,更为我们理解智能的本质提供了新视角:真正的适应性源于在抽象与具体间自由游走的能力,而代码,正成为连接这两极的理想媒介。
— 图片补充 —



关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5575
