VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning<br>VolumeDP：面向操作策略学习的体素化表征建模<br>[摘要](abstracts/2603.17720.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

模仿学习是机器人操作领域的重要范式。然而，现有视觉模仿方法直接将二维图像观测映射为三维动作输出，这种二维到三维的错配阻碍了空间推理并降低了系统鲁棒性。本文提出VolumeDP策略架构，通过显式的三维推理恢复空间对齐。VolumeDP首先通过交叉注意力机制将图像特征提升至体素化表征，随后利用可学习模块筛选任务相关体素，并将其转化为紧凑的空间标记集合，在保持动作关键几何信息的同时显著降低计算量。最后，多标记解码器基于完整标记集预测动作，从而避免将多个空间标记压缩为单一描述符所导致的信息损失。在LIBERO仿真基准测试中，VolumeDP实现了88.8%的平均成功率，超越现有最优基线14.8个百分点。该方法在ManiSkill和LIBERO-Plus基准测试中也较先前方法取得显著性能提升。真实世界实验进一步证明，该方法在新型空间布局、相机视角和环境背景条件下均具有更高的成功率和鲁棒泛化能力。代码即将开源。

← Back