DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation<br>DySL-VLA:通过动态-静态层跳跃实现机器人操作中高效视觉-语言-动作模型推理<br>[摘要](abstracts/2602.22896.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型通过融合语言模型的推理能力与视觉模型的三维理解能力,在机器人操作等任务中展现出卓越性能。然而,其高昂的计算成本仍是实现实时性能现实应用的主要障碍。我们观察到,任务中的动作具有不同的重要性级别:关键步骤需要高精度,而次要步骤则可容忍更多变化。基于这一洞察,我们提出了DySL-VLA,一种新颖的框架,通过根据每个动作的重要性动态跳过VLA层来应对计算成本问题。DySL-VLA将其层分为两类:信息层(始终执行)和增量层(可选择性地跳过)。为了在不牺牲准确性的情况下智能跳过层,我们发明了一种先验-后验跳跃引导机制,以确定何时启动层跳跃。我们还提出了一种跳跃感知的两阶段知识蒸馏算法,用于高效地将标准VLA训练为DySL-VLA。实验结果表明,在Calvin数据集上,DySL-VLA相比Deer-VLA实现了2.1%的成功长度提升,同时将可训练参数减少了85.7倍,并在同等准确度下相对于RoboFlamingo基线提供了3.75倍的加速。我们的代码可在https://github.com/PKU-SEC-Lab/DYSL_VLA获取。

← Back