ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving<br>ExploreVLA：面向端到端自动驾驶的密集世界建模与探索<br>[摘要](abstracts/2604.02714.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于视觉-语言-动作（VLA）架构的端到端自动驾驶模型通过行为克隆学习专家演示中的驾驶策略，已展现出有前景的结果。然而，模仿学习本质上限制了模型只能复现已观察到的行为，无法探索多样化的驾驶策略，导致其在新颖或分布外场景中表现脆弱。强化学习（RL）提供了一种自然的解决方案，它允许策略在专家分布之外进行探索。但通常基于离线数据集训练的VLA模型缺乏直接可观测的状态转移，因此需要借助学习得到的世界模型来预测动作的后果。在本研究中，我们提出了一种统一的理解与生成框架，该框架利用世界建模来同时实现有意义的探索并提供密集监督。具体而言，我们通过未来RGB图像和深度图像的生成作为密集世界建模目标来增强轨迹预测，要求模型学习细粒度的视觉与几何表征，从而显著丰富规划主干。除了作为监督信号外，世界模型还进一步充当策略探索的内在奖励来源：其图像预测的不确定性自然地衡量了轨迹相对于训练分布的新颖性，其中高不确定性指示了分布外场景——若这些场景是安全的，则代表了宝贵的学习机会。我们将这一探索信号整合到安全门控奖励中，并通过组相对策略优化（GRPO）来优化策略。在NAVSIM和nuScenes基准测试上的实验证明了我们方法的有效性，在NAVSIM上实现了93.7的PDMS分数和88.8的EPDMS分数，达到了当前最佳水平。代码与演示将在https://zihaosheng.github.io/ExploreVLA/公开提供。

← Back