在线强化学习

  • VLA强化学习新范式:从星动纪元iRe-VLA到π*0.6的迭代式突破

    在具身智能领域,视觉-语言-动作(VLA)模型正成为连接大语言模型与物理世界的关键桥梁。近期,Physical Intelligence发布的π*0.6论文与清华大学星动纪元团队的iRe-VLA研究,共同揭示了VLA模型通过在线强化学习实现自我改进的技术路径,标志着该领域从单纯模仿学习向自主探索的范式转变。 VLA模型的核心挑战在于如何将预训练的视觉-语言大…

    2025年12月12日
    200