Abstract not available.
模仿学习是机器人操作领域的重要范式。然而,现有视觉模仿方法直接将二维图像观测映射为三维动作输出,这种二维到三维的错配阻碍了空间推理并降低了系统鲁棒性。本文提出VolumeDP策略架构,通过显式的三维推理恢复空间对齐。VolumeDP首先通过交叉注意力机制将图像特征提升至体素化表征,随后利用可学习模块筛选任务相关体素,并将其转化为紧凑的空间标记集合,在保持动作关键几何信息的同时显著降低计算量。最后,多标记解码器基于完整标记集预测动作,从而避免将多个空间标记压缩为单一描述符所导致的信息损失。在LIBERO仿真基准测试中,VolumeDP实现了88.8%的平均成功率,超越现有最优基线14.8个百分点。该方法在ManiSkill和LIBERO-Plus基准测试中也较先前方法取得显著性能提升。真实世界实验进一步证明,该方法在新型空间布局、相机视角和环境背景条件下均具有更高的成功率和鲁棒泛化能力。代码即将开源。