Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving<br>先评判，再驾驶：一种以批评者为中心的视觉语言动作自动驾驶框架<br>[摘要](abstracts/2604.27366.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期视觉语言动作（VLA）模型的进展通过将多模态输入直接映射为控制信号，在自动驾驶领域展现出巨大潜力。然而，以往的VLA方法并未明确利用模型的批评能力来优化驾驶决策——尽管这种能力在其他基于大语言模型的领域已得到充分验证，因此它们在复杂闭环场景中的性能受到限制。本文提出了一种具有理论启发性的两阶段框架CriticVLA，将VLA的角色从“行动者”扩展为“评判者”。CriticVLA首先生成粗略轨迹，再通过基于VLA批评者的多模态评估与单步优化进行轨迹修正，从而生成更高质量的驾驶行为。为支撑该流程，我们构建了包含1290万条标注轨迹的大规模合成数据集，覆盖多样化驾驶场景，以增强批评者的推理与优化能力。在Bench2Drive基准上的广泛闭环实验表明，CriticVLA显著超越现有最优基线，总成功率达73.33%，并在挑战性场景中实现约30%的性能提升。

← Back