Vega: Learning to Drive with Natural Language Instructions<br>Vega：通过自然语言指令学习驾驶<br>[摘要](abstracts/2603.25741.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型重塑了自动驾驶领域，将语言纳入决策过程。然而，现有的大多数流程仅将语言模态用于场景描述或推理，缺乏遵循多样化用户指令以实现个性化驾驶的灵活性。为此，我们首先构建了一个大规模驾驶数据集（InstructScene），包含约10万个场景，每个场景都标注了多样化的驾驶指令及对应的轨迹。随后，我们提出了一种统一的视觉-语言-世界-动作模型Vega，用于基于指令的生成与规划。我们采用自回归范式处理视觉输入（视觉）和语言指令（语言），并利用扩散范式生成未来预测（世界建模）和轨迹（动作）。通过联合注意力机制实现不同模态间的交互，并为各模态使用独立的投影层以增强能力。大量实验表明，我们的方法不仅实现了卓越的规划性能，还展现出强大的指令遵循能力，为更智能、个性化的驾驶系统铺平了道路。

← Back