Abstract not available.
大型语言模型(LLMs)和视觉-语言模型(VLMs)已成为端到端自动驾驶的有力候选方案。然而,这些模型通常在推理延迟、动作精度和可解释性方面面临挑战。现有的自回归方法因逐令牌生成而速度缓慢,而先前的基于扩散的规划器往往依赖于冗长、通用的语言令牌,缺乏明确的几何结构。本文提出了一种用于自动驾驶的掩码视觉-语言-动作扩散框架(MVLAD-AD),该框架通过掩码视觉-语言-动作扩散模型,旨在弥合高效规划与语义可解释性之间的鸿沟。与将动作强行映射到语言空间的方法不同,我们引入了一种离散动作令牌化策略,从真实世界驾驶分布中构建了一个紧凑的、运动学可行的路径点码本。此外,我们提出了几何感知嵌入学习,以确保潜在空间中的嵌入能够近似物理几何度量。最后,我们引入了动作优先解码策略,以优先生成轨迹。在nuScenes及其衍生基准上的大量实验表明,MVLAD-AD在实现卓越效率的同时,其规划精度超越了最先进的自回归和扩散基线,并能提供高保真且可解释的推理。