Abstract not available.
视觉-语言-动作(VLA)模型近期在自动驾驶领域崭露头角,其通过利用丰富的世界知识来提升驾驶系统的认知能力。然而,将此类模型适配于驾驶任务时,当前面临空间感知与语义推理之间的关键困境。因此,现有VLA系统不得不做出次优的折衷:直接采用2D视觉-语言模型会导致空间感知能力有限,而用3D空间表征增强它们又常常损害VLM原有的推理能力。我们认为,这一困境主要源于空间感知与语义推理在共享模型参数内的耦合优化。为克服此问题,我们提出了UniDriveVLA,一种基于混合Transformer的统一驾驶视觉-语言-动作模型,通过专家解耦来解决感知与推理的冲突。具体而言,该模型包含三个专家模块,分别负责驾驶理解、场景感知和动作规划,并通过掩码联合注意力机制进行协同。此外,我们结合稀疏感知范式与三阶段渐进式训练策略,在保持语义推理能力的同时提升空间感知性能。大量实验表明,UniDriveVLA在nuScenes数据集的开环评估和Bench2Drive的闭环评估中均达到了最先进的性能。同时,该模型在广泛的感知、预测和理解任务上表现出色,包括3D检测、在线建图、运动预测和面向驾驶的视觉问答,突显了其作为自动驾驶统一模型的广泛适用性。代码与模型已发布于https://github.com/xiaomi-research/unidrivevla。