DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding<br>DriveTok：面向统一多视角重建与理解的3D驾驶场景标记化方法<br>[摘要](abstracts/2603.19219.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着视觉-语言-动作模型与世界模型在自动驾驶系统中的日益普及，可扩展的图像标记化技术作为视觉模态的接口变得至关重要。然而，现有大多数标记器主要针对单目和2D场景设计，当应用于高分辨率多视角驾驶场景时，常导致效率低下和视角间不一致的问题。为此，我们提出了DriveTok，一种高效的3D驾驶场景标记器，用于统一的多视角重建与理解。DriveTok首先从视觉基础模型中获取语义丰富的视觉特征，然后通过3D可变形交叉注意力将其转换为场景标记。在解码阶段，我们采用多视角变换器从场景标记中重建多视角特征，并利用多头机制实现RGB、深度和语义重建。此外，我们还在场景标记上直接添加了一个3D头部，用于3D语义占据预测，以增强空间感知能力。通过多训练目标，DriveTok学习到统一的场景标记，这些标记整合了语义、几何和纹理信息，实现了高效的多视角标记化。在广泛使用的nuScenes数据集上进行的大量实验表明，DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占据预测任务上均表现出色。

← Back