HiF-VLA

  • 抛弃像素冗余,HiF-VLA用运动向量实现机器人长程任务的物理推理突破

      具身智能要在复杂场景中真正落地,离不开对长程任务(Long-horizon tasks)的稳定执行。但现有的 VLA(视觉-语言-动作)模型大多停留在“动作模仿”阶段,缺乏对物理世界动态变化的深刻理解,在长线操作中极易陷入因果混淆。同时,传统通过直接堆叠多帧图像来引入时间维度的方法,不仅容易引入大量静态背景冗余,更会带来灾难性的推理延迟与显存溢…

    16小时前
    3300