Abstract not available.
视觉-语言-动作模型重塑了自动驾驶领域,将语言纳入决策过程。然而,现有的大多数流程仅将语言模态用于场景描述或推理,缺乏遵循多样化用户指令以实现个性化驾驶的灵活性。为此,我们首先构建了一个大规模驾驶数据集(InstructScene),包含约10万个场景,每个场景都标注了多样化的驾驶指令及对应的轨迹。随后,我们提出了一种统一的视觉-语言-世界-动作模型Vega,用于基于指令的生成与规划。我们采用自回归范式处理视觉输入(视觉)和语言指令(语言),并利用扩散范式生成未来预测(世界建模)和轨迹(动作)。通过联合注意力机制实现不同模态间的交互,并为各模态使用独立的投影层以增强能力。大量实验表明,我们的方法不仅实现了卓越的规划性能,还展现出强大的指令遵循能力,为更智能、个性化的驾驶系统铺平了道路。