Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion<br>基于掩码视觉-语言-动作扩散的高效可解释端到端自动驾驶<br>[摘要](abstracts/2602.20577.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型语言模型（LLMs）和视觉-语言模型（VLMs）已成为端到端自动驾驶的有力候选方案。然而，这些模型通常在推理延迟、动作精度和可解释性方面面临挑战。现有的自回归方法因逐令牌生成而速度缓慢，而先前的基于扩散的规划器往往依赖于冗长、通用的语言令牌，缺乏明确的几何结构。本文提出了一种用于自动驾驶的掩码视觉-语言-动作扩散框架（MVLAD-AD），该框架通过掩码视觉-语言-动作扩散模型，旨在弥合高效规划与语义可解释性之间的鸿沟。与将动作强行映射到语言空间的方法不同，我们引入了一种离散动作令牌化策略，从真实世界驾驶分布中构建了一个紧凑的、运动学可行的路径点码本。此外，我们提出了几何感知嵌入学习，以确保潜在空间中的嵌入能够近似物理几何度量。最后，我们引入了动作优先解码策略，以优先生成轨迹。在nuScenes及其衍生基准上的大量实验表明，MVLAD-AD在实现卓越效率的同时，其规划精度超越了最先进的自回归和扩散基线，并能提供高保真且可解释的推理。

← Back