StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving<br>StyleVLA：面向自动驾驶的驾驶风格感知视觉语言动作模型<br>[摘要](abstracts/2603.09482.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）桥接了视觉感知与语言推理。在自动驾驶（AD）领域，这一协同作用催生了视觉语言动作（VLA）模型，其将高级多模态理解转化为驾驶行为，通常表示为未来轨迹。然而，现有VLA模型主要生成通用的无碰撞轨迹。除了避障之外，适应多样化的驾驶风格（例如运动型、舒适型）对于个性化驾驶至关重要。此外，许多方法将轨迹生成视为简单的令牌预测，可能产生运动学上不可行的动作。为应对这些局限，我们提出了StyleVLA，一个基于物理信息的VLA框架，用于生成多样化且物理合理的驾驶行为。我们引入了一种混合损失函数，结合运动学一致性约束与连续回归头，以提升轨迹可行性。为训练基于Qwen3-VL-4B构建的StyleVLA，我们构建了一个大规模指令数据集，包含超过1.2千个场景、7.6万个鸟瞰图（BEV）样本和4.2万个第一人称视角（FPV）样本，并标注了五种驾驶风格的真实轨迹及自然语言指令。实验表明，我们的40亿参数StyleVLA显著优于专有模型（如Gemini-3-Pro）和最先进的VLA模型。使用综合驾驶评分（衡量成功率、物理可行性和风格符合度）进行评估，StyleVLA在BEV上得分为0.55，在FPV上得分为0.51，而Gemini-3-Pro的得分分别为0.32和0.35。这些结果表明，针对特定领域任务，专业化、物理信息化的轻量级模型能够超越闭源模型。

← Back