EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation<br>EvoDriveVLA：通过协同感知-规划蒸馏进化自动驾驶视觉-语言-动作模型<br>[摘要](abstracts/2603.09465.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型在自动驾驶领域展现出巨大潜力，但在解冻视觉编码器后其感知能力会下降，且长期规划中存在累积不稳定性问题。为应对这些挑战，我们提出了EvoDriveVLA——一种新颖的协同感知-规划蒸馏框架，该框架整合了自锚定感知约束与先知引导的轨迹优化。具体而言，自锚定视觉蒸馏利用自锚定教师模型传递视觉锚定约束，通过轨迹引导的关键区域感知来规范化学生模型的表征。同时，先知引导的轨迹蒸馏采用具有未来感知能力的先知教师模型，结合从粗到精的轨迹优化和蒙特卡洛丢弃采样，生成高质量的轨迹候选集，从而选择最优轨迹以指导学生模型的预测。EvoDriveVLA在开环评估中实现了最先进的性能，并在闭环评估中显著提升了表现。我们的代码已公开于：https://github.com/hey-cjj/EvoDriveVLA。

← Back