HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness<br>HeiSD:面向具身视觉-语言-动作模型的混合推测解码框架及其运动学感知<br>[摘要](abstracts/2603.17573.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型已成为机器人控制的主流解决方案,但其推理速度较慢。推测解码(SD)是一种有前景的加速方法,可分为两类:基于草稿器的SD和基于检索的SD。现有方法未能分析这两类SD在VLA模型中的优缺点,导致它们被单独应用或优化。本文分析了VLA模型控制的机器人轨迹模式,得出关键见解:两类SD应以混合方式使用。然而,在VLA模型中实现混合SD面临若干挑战:(1)基于检索的SD中存在草稿拒绝和持续错误;(2)难以确定混合边界。为解决这些问题,我们提出了HeiSD框架。在HeiSD中,我们提出了一种基于检索的SD优化方法,包含验证-跳过机制和序列级松弛接受策略。此外,我们提出了一种基于运动学的融合度量,用于自动确定混合边界。实验结果表明,HeiSD在仿真基准测试中实现了最高2.45倍的加速,在真实场景中达到2.06倍至2.41倍加速,同时保持了较高的任务成功率。

← Back