DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation<br>DySL-VLA：通过动态-静态层跳跃实现机器人操作中高效视觉-语言-动作模型推理<br>[摘要](abstracts/2602.22896.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型通过融合语言模型的推理能力与视觉模型的三维理解能力，在机器人操作等任务中展现出卓越性能。然而，其高昂的计算成本仍是实现实时性能现实应用的主要障碍。我们观察到，任务中的动作具有不同的重要性级别：关键步骤需要高精度，而次要步骤则可容忍更多变化。基于这一洞察，我们提出了DySL-VLA，一种新颖的框架，通过根据每个动作的重要性动态跳过VLA层来应对计算成本问题。DySL-VLA将其层分为两类：信息层（始终执行）和增量层（可选择性地跳过）。为了在不牺牲准确性的情况下智能跳过层，我们发明了一种先验-后验跳跃引导机制，以确定何时启动层跳跃。我们还提出了一种跳跃感知的两阶段知识蒸馏算法，用于高效地将标准VLA训练为DySL-VLA。实验结果表明，在Calvin数据集上，DySL-VLA相比Deer-VLA实现了2.1%的成功长度提升，同时将可训练参数减少了85.7倍，并在同等准确度下相对于RoboFlamingo基线提供了3.75倍的加速。我们的代码可在https://github.com/PKU-SEC-Lab/DYSL_VLA获取。

← Back