Abstract not available.
视觉-语言-动作模型通过统一感知、语言理解和动作生成,已成为机器人操作领域的一种有前景的范式。然而,它们往往在需要精确空间理解的场景中表现不佳,因为当前的VLA模型主要依赖缺乏深度信息和详细空间关系的2D视觉表征。虽然近期的方法通过引入显式3D输入(如深度图或点云)来解决这一问题,但这通常增加了系统复杂度、需要额外传感器,并且容易受到传感噪声和重建误差的影响。另一条研究路线则探索直接从RGB观测中实现隐式3D感知空间建模,而无需额外传感器,但往往依赖于大型几何基础模型,导致训练和部署成本较高。为应对这些挑战,我们提出了Evo-Depth,一种轻量级深度增强的VLA框架,它在不依赖额外传感硬件或牺牲部署效率的前提下,增强了空间相关操作能力。Evo-Depth采用轻量级隐式深度编码模块,从多视角RGB图像中提取紧凑的深度特征。通过空间增强模块中的深度感知调制,这些特征被融入视觉-语言表征中,从而实现高效的空间-语义增强。我们还引入了一种渐进对齐训练策略,将得到的深度增强表征与下游动作学习进行对齐。凭借仅0.9B的参数,Evo-Depth在四个仿真基准测试中取得了卓越性能。在真实世界实验中,Evo-Depth在达到最高平均成功率的同时,还展现出最小的模型尺寸、最低的GPU内存占用以及最高的推理频率。