OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models<br>OneDrive：基于视觉-语言-动作模型的多范式统一驾驶框架<br>[摘要](abstracts/2604.17915.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型（VLMs）在自回归文本生成方面表现出色，但端到端自动驾驶需要具备结构化输出和异构解码行为的多任务学习能力，例如自回归语言生成、并行目标检测和轨迹回归。为适应这些差异，现有系统通常引入独立或级联的解码器，导致架构碎片化且主干网络复用受限。本文提出了一种基于预训练VLM的统一自动驾驶框架，其中异构解码行为在单个Transformer解码器内得到协调。我们证明，预训练的VLM注意力机制在纯语言建模之外展现出强大的可迁移性。通过在单一因果解码器中组织视觉和结构化查询令牌，结构化查询能自然地通过原始注意力机制以视觉上下文为条件。文本与结构化输出共享统一的注意力主干，支持异构任务间的稳定联合优化。轨迹规划通过引入结构化轨迹查询在同一因果LLM解码器中实现，使规划任务能与图像及感知令牌共享预训练的注意力主干。在端到端自动驾驶基准测试上的大量实验表明，该方法取得了最先进的性能，包括在nuScenes开环评估中达到0.28 L2误差和0.18碰撞率，在NAVSIM闭环评估中获得竞争性结果（86.8 PDMS）。完整模型保留了多模态生成能力，而高效推理模式的延迟降低了约40%。代码与模型已开源：https://github.com/Z1zyw/OneDrive

← Back