HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild<br>HarvestFlex：通过视觉-语言-动作策略自适应在野外环境中实现草莓采摘<br>[摘要](abstracts/2603.05982.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本研究首次探讨了将视觉-语言-动作（VLA）策略迁移至真实温室桌面草莓采摘任务中，该任务具有长时程、非结构化特点，并面临遮挡和镜面反射等挑战。我们在HarvestFlex平台上构建了一个端到端闭环系统，采用三视角RGB感知（两个固定场景视角加一个腕部视角），并有意避免使用深度点云和显式几何标定。我们收集了3.71小时的VR远程操作演示数据（共227个片段），并分别对pi_0、pi_0.5和WALL-OSS模型进行了全参数微调和LoRA微调。在统一的50次真实温室试验协议及涵盖完成度、效率的评估指标下，全参数微调的pi_0.5模型取得了74.0%的成功率、单次采摘耗时32.6秒及4.1%的损伤率。异步推理-控制解耦部署进一步提升了性能，优于同步部署方式。结果表明，仅用不到四小时的真实数据即可实现非平凡的闭环采摘，但系统仍受限于近距离观测能力缺失和接触动力学不匹配问题。演示视频可见：https://youtu.be/bN8ZowZKPMI。

← Back