Abstract not available.
视觉语言模型(VLMs)桥接了视觉感知与语言推理。在自动驾驶(AD)领域,这一协同作用催生了视觉语言动作(VLA)模型,其将高级多模态理解转化为驾驶行为,通常表示为未来轨迹。然而,现有VLA模型主要生成通用的无碰撞轨迹。除了避障之外,适应多样化的驾驶风格(例如运动型、舒适型)对于个性化驾驶至关重要。此外,许多方法将轨迹生成视为简单的令牌预测,可能产生运动学上不可行的动作。为应对这些局限,我们提出了StyleVLA,一个基于物理信息的VLA框架,用于生成多样化且物理合理的驾驶行为。我们引入了一种混合损失函数,结合运动学一致性约束与连续回归头,以提升轨迹可行性。为训练基于Qwen3-VL-4B构建的StyleVLA,我们构建了一个大规模指令数据集,包含超过1.2千个场景、7.6万个鸟瞰图(BEV)样本和4.2万个第一人称视角(FPV)样本,并标注了五种驾驶风格的真实轨迹及自然语言指令。实验表明,我们的40亿参数StyleVLA显著优于专有模型(如Gemini-3-Pro)和最先进的VLA模型。使用综合驾驶评分(衡量成功率、物理可行性和风格符合度)进行评估,StyleVLA在BEV上得分为0.55,在FPV上得分为0.51,而Gemini-3-Pro的得分分别为0.32和0.35。这些结果表明,针对特定领域任务,专业化、物理信息化的轻量级模型能够超越闭源模型。