VLA强化学习新范式：从星动纪元iRe-VLA到π*0.6的迭代式突破

2025年12月12日上午11:07 • AI产业动态 • 阅读 79

在具身智能领域，视觉-语言-动作（VLA）模型正成为连接大语言模型与物理世界的关键桥梁。近期，Physical Intelligence发布的π*0.6论文与清华大学星动纪元团队的iRe-VLA研究，共同揭示了VLA模型通过在线强化学习实现自我改进的技术路径，标志着该领域从单纯模仿学习向自主探索的范式转变。

VLA模型的核心挑战在于如何将预训练的视觉-语言大模型（如BLIP-2、GPT-4V）的能力有效迁移到机器人控制任务中。传统方法主要依赖监督微调（SFT），通过人类示范数据教会机器人执行特定动作。然而，这种方法的局限性显而易见：机器人只能复现已有数据中的行为模式，面对未知环境或复杂任务时缺乏适应能力。正如π*0.6论文所强调的，模仿学习能让机器人完成基本动作，但实现高鲁棒性、持久性的工作能力，必须引入强化学习的探索机制。

强化学习在VLA模型中的应用面临三大核心难题。首先是环境差异问题：与聊天机器人基于离线数据集的训练不同，物理机器人需要在实时环境中探索，任务周期长、奖励稀疏（通常只有完成整套动作才能获得正向反馈），导致学习效率低下。其次是模型稳定性问题：直接对数十亿参数的VLA模型进行在线强化学习，极易引发灾难性遗忘或训练崩溃，使模型性能甚至倒退至微调前水平。最后是算力约束问题：在本地机器人控制器上对大规模模型进行全梯度更新，远超当前硬件算力极限。

针对这些挑战，行业出现了三种技术路径。外挂式干预方案（如V-GPS、DSRL）通过训练辅助价值函数或优化扩散模型输入噪声来引导冻结的VLA模型，虽能保持模型稳定，但未触及模型本质改进。暴力美学方案（如VLAC）直接使用PPO等算法全量微调VLA，虽理论完整但面临稳定性与算力双重压力。而星动纪元iRe-VLA与π*0.6代表的第三种路径——探索到内化的循环迭代机制——正在成为最具前景的解决方案。

iRe-VLA的创新之处在于其两阶段交替学习架构。第一阶段，模型冻结VLM主干参数，仅训练轻量级动作输出层（Action Head）进行在线强化学习探索。这种设计巧妙规避了大模型直接强化学习的不稳定性，同时大幅降低计算需求，使单张4090显卡即可支持训练。机器人通过试错积累成功轨迹数据，形成初步的任务解决能力。

第二阶段则转向监督学习内化。模型解冻VLM主干，利用第一阶段收集的高价值轨迹数据对整个模型（包括LoRA适配参数）进行微调，将探索获得的能力固化为模型的固有知识。这种动静结合的策略既保证了探索阶段的稳定性，又实现了能力的内化升华，形成“探索-内化-再探索”的良性循环。

值得注意的是，iRe-VLA在模型架构设计上体现了精妙的工程思维。其将VLA模型分解为VLM主干（大脑）和动作输出层（四肢），前者负责感知与理解，后者专司控制与执行。通过LoRA技术对主干进行参数高效微调，既保留了预训练模型的世界知识，又实现了任务特定适应。这种模块化设计为后续迭代升级提供了灵活框架。

π*0.6论文引用了iRe-VLA工作，表明中美研究团队在VLA强化学习方向上形成了技术共鸣。两者都认识到单纯模仿学习的局限，都致力于通过在线交互实现模型自主进化。不同的是，π*0.6更侧重于迭代式强化学习的理论框架，而iRe-VLA则提供了具体的工程实现方案。这种互补关系推动了整个领域的技术进步。