Abstract not available.
尽管视觉-语言-动作模型(VLAs)在机器人操作领域取得了显著进展,但这些大规模预训练模型需经微调才能部署于特定环境。微调后的模型对非结构化环境中频繁发生的相机视角变化极为敏感。本文提出一种无需额外演示数据、策略微调或架构修改的零样本相机适配框架。其核心思想是在测试时实时虚拟调整相机观测,以匹配训练时的相机配置。为此,我们采用一种最新的前馈式新视角合成模型,该模型能输出高质量的目标视角图像,并同时处理外参和内参。这种即插即用方法保留了VLAs的预训练能力,并适用于任何基于RGB的策略。通过在LIBERO基准测试上的广泛实验,我们的方法在性能上持续超越使用数据增强进行策略微调或引入额外3D感知特征的基线方法。我们进一步验证了该方法在真实世界机器人操作场景中能持续提升视角鲁棒性,包括相机外参、内参变化以及自由移动手持相机的设置。