EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation<br>EvoDriveVLA:通过协同感知-规划蒸馏进化自动驾驶视觉-语言-动作模型<br>[摘要](abstracts/2603.09465.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型在自动驾驶领域展现出巨大潜力,但在解冻视觉编码器后其感知能力会下降,且长期规划中存在累积不稳定性问题。为应对这些挑战,我们提出了EvoDriveVLA——一种新颖的协同感知-规划蒸馏框架,该框架整合了自锚定感知约束与先知引导的轨迹优化。具体而言,自锚定视觉蒸馏利用自锚定教师模型传递视觉锚定约束,通过轨迹引导的关键区域感知来规范化学生模型的表征。同时,先知引导的轨迹蒸馏采用具有未来感知能力的先知教师模型,结合从粗到精的轨迹优化和蒙特卡洛丢弃采样,生成高质量的轨迹候选集,从而选择最优轨迹以指导学生模型的预测。EvoDriveVLA在开环评估中实现了最先进的性能,并在闭环评估中显著提升了表现。我们的代码已公开于:https://github.com/hey-cjj/EvoDriveVLA。

← Back