Abstract not available.
我们通过基于光流的轨迹生成技术来解决语言条件化机器人操作问题,该方法支持在人类和网络上的物体操作视频上进行训练,且仅需极少量的具体实体数据。这一任务具有挑战性,因为从操作前图像和自然语言指令生成物体轨迹需要实现指令与光流的恰当对齐。为应对此挑战,我们提出了基于光流的语言指令引导开环动作生成器(LILAC)。这一基于光流的视觉-语言-动作模型(VLA)能够根据RGB图像和自然语言指令生成以物体为中心的二维光流,并将光流转换为六自由度机械臂轨迹。LILAC包含两个关键组件:语义对齐损失,用于增强语言条件以生成与指令对齐的光流;以及提示条件跨模态适配器,用于将学习到的视觉提示与图像及文本特征对齐,为光流生成提供丰富线索。实验表明,我们的方法在多个基准测试中生成的光流质量优于现有方法。此外,在使用自由形式指令的物理物体操作实验中,LILAC相比现有方法展现出更高的任务成功率。项目页面详见:https://lilac-75srg.kinsta.page/。