Abstract not available.
本研究首次探讨了将视觉-语言-动作(VLA)策略迁移至真实温室桌面草莓采摘任务中,该任务具有长时程、非结构化特点,并面临遮挡和镜面反射等挑战。我们在HarvestFlex平台上构建了一个端到端闭环系统,采用三视角RGB感知(两个固定场景视角加一个腕部视角),并有意避免使用深度点云和显式几何标定。我们收集了3.71小时的VR远程操作演示数据(共227个片段),并分别对pi_0、pi_0.5和WALL-OSS模型进行了全参数微调和LoRA微调。在统一的50次真实温室试验协议及涵盖完成度、效率的评估指标下,全参数微调的pi_0.5模型取得了74.0%的成功率、单次采摘耗时32.6秒及4.1%的损伤率。异步推理-控制解耦部署进一步提升了性能,优于同步部署方式。结果表明,仅用不到四小时的真实数据即可实现非平凡的闭环采摘,但系统仍受限于近距离观测能力缺失和接触动力学不匹配问题。演示视频可见:https://youtu.be/bN8ZowZKPMI。