Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model<br>Evo-Depth: 一种轻量级深度增强的视觉-语言-动作模型<br>[摘要](abstracts/2605.14950.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型通过统一感知、语言理解和动作生成，已成为机器人操作领域的一种有前景的范式。然而，它们往往在需要精确空间理解的场景中表现不佳，因为当前的VLA模型主要依赖缺乏深度信息和详细空间关系的2D视觉表征。虽然近期的方法通过引入显式3D输入（如深度图或点云）来解决这一问题，但这通常增加了系统复杂度、需要额外传感器，并且容易受到传感噪声和重建误差的影响。另一条研究路线则探索直接从RGB观测中实现隐式3D感知空间建模，而无需额外传感器，但往往依赖于大型几何基础模型，导致训练和部署成本较高。为应对这些挑战，我们提出了Evo-Depth，一种轻量级深度增强的VLA框架，它在不依赖额外传感硬件或牺牲部署效率的前提下，增强了空间相关操作能力。Evo-Depth采用轻量级隐式深度编码模块，从多视角RGB图像中提取紧凑的深度特征。通过空间增强模块中的深度感知调制，这些特征被融入视觉-语言表征中，从而实现高效的空间-语义增强。我们还引入了一种渐进对齐训练策略，将得到的深度增强表征与下游动作学习进行对齐。凭借仅0.9B的参数，Evo-Depth在四个仿真基准测试中取得了卓越性能。在真实世界实验中，Evo-Depth在达到最高平均成功率的同时，还展现出最小的模型尺寸、最低的GPU内存占用以及最高的推理频率。

← Back