DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding<br>DriveTok:面向统一多视角重建与理解的3D驾驶场景标记化方法<br>[摘要](abstracts/2603.19219.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着视觉-语言-动作模型与世界模型在自动驾驶系统中的日益普及,可扩展的图像标记化技术作为视觉模态的接口变得至关重要。然而,现有大多数标记器主要针对单目和2D场景设计,当应用于高分辨率多视角驾驶场景时,常导致效率低下和视角间不一致的问题。为此,我们提出了DriveTok,一种高效的3D驾驶场景标记器,用于统一的多视角重建与理解。DriveTok首先从视觉基础模型中获取语义丰富的视觉特征,然后通过3D可变形交叉注意力将其转换为场景标记。在解码阶段,我们采用多视角变换器从场景标记中重建多视角特征,并利用多头机制实现RGB、深度和语义重建。此外,我们还在场景标记上直接添加了一个3D头部,用于3D语义占据预测,以增强空间感知能力。通过多训练目标,DriveTok学习到统一的场景标记,这些标记整合了语义、几何和纹理信息,实现了高效的多视角标记化。在广泛使用的nuScenes数据集上进行的大量实验表明,DriveTok生成的场景标记在图像重建、语义分割、深度预测和3D占据预测任务上均表现出色。

← Back