Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving<br>先评判,再驾驶:一种以批评者为中心的视觉语言动作自动驾驶框架<br>[摘要](abstracts/2604.27366.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期视觉语言动作(VLA)模型的进展通过将多模态输入直接映射为控制信号,在自动驾驶领域展现出巨大潜力。然而,以往的VLA方法并未明确利用模型的批评能力来优化驾驶决策——尽管这种能力在其他基于大语言模型的领域已得到充分验证,因此它们在复杂闭环场景中的性能受到限制。本文提出了一种具有理论启发性的两阶段框架CriticVLA,将VLA的角色从“行动者”扩展为“评判者”。CriticVLA首先生成粗略轨迹,再通过基于VLA批评者的多模态评估与单步优化进行轨迹修正,从而生成更高质量的驾驶行为。为支撑该流程,我们构建了包含1290万条标注轨迹的大规模合成数据集,覆盖多样化驾驶场景,以增强批评者的推理与优化能力。在Bench2Drive基准上的广泛闭环实验表明,CriticVLA显著超越现有最优基线,总成功率达73.33%,并在挑战性场景中实现约30%的性能提升。

← Back