HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness<br>HeiSD：面向具身视觉-语言-动作模型的混合推测解码框架及其运动学感知<br>[摘要](abstracts/2603.17573.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型已成为机器人控制的主流解决方案，但其推理速度较慢。推测解码（SD）是一种有前景的加速方法，可分为两类：基于草稿器的SD和基于检索的SD。现有方法未能分析这两类SD在VLA模型中的优缺点，导致它们被单独应用或优化。本文分析了VLA模型控制的机器人轨迹模式，得出关键见解：两类SD应以混合方式使用。然而，在VLA模型中实现混合SD面临若干挑战：（1）基于检索的SD中存在草稿拒绝和持续错误；（2）难以确定混合边界。为解决这些问题，我们提出了HeiSD框架。在HeiSD中，我们提出了一种基于检索的SD优化方法，包含验证-跳过机制和序列级松弛接受策略。此外，我们提出了一种基于运动学的融合度量，用于自动确定混合边界。实验结果表明，HeiSD在仿真基准测试中实现了最高2.45倍的加速，在真实场景中达到2.06倍至2.41倍加速，同时保持了较高的任务成功率。

← Back