Abstract not available.
随着视觉-语言-动作模型与世界模型在自动驾驶系统中的日益普及,可扩展的图像标记化技术作为视觉模态的接口变得至关重要。然而,现有大多数标记器主要针对单目和2D场景设计,当应用于高分辨率多视角驾驶场景时,常导致效率低下和视角间不一致的问题。为此,我们提出了DriveTok,一种高效的3D驾驶场景标记器,用于统一的多视角重建与理解。DriveTok首先从视觉基础模型中获取语义丰富的视觉特征,然后通过3D可变形交叉注意力将其转换为场景标记。在解码阶段,我们采用多视角变换器从场景标记中重建多视角特征,并利用多头机制实现RGB、深度和语义重建。此外,我们还在场景标记上直接添加了一个3D头部,用于3D语义占据预测,以增强空间感知能力。通过多训练目标,DriveTok学习到统一的场景标记,这些标记整合了语义、几何和纹理信息,实现了高效的多视角标记化。在广泛使用的nuScenes数据集上进行的大量实验表明,DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占据预测任务上均表现出色。