Abstract not available.
视觉-语言-动作模型在自动驾驶领域展现出巨大潜力,但在解冻视觉编码器后其感知能力会下降,且长期规划中存在累积不稳定性问题。为应对这些挑战,我们提出了EvoDriveVLA——一种新颖的协同感知-规划蒸馏框架,该框架整合了自锚定感知约束与先知引导的轨迹优化。具体而言,自锚定视觉蒸馏利用自锚定教师模型传递视觉锚定约束,通过轨迹引导的关键区域感知来规范化学生模型的表征。同时,先知引导的轨迹蒸馏采用具有未来感知能力的先知教师模型,结合从粗到精的轨迹优化和蒙特卡洛丢弃采样,生成高质量的轨迹候选集,从而选择最优轨迹以指导学生模型的预测。EvoDriveVLA在开环评估中实现了最先进的性能,并在闭环评估中显著提升了表现。我们的代码已公开于:https://github.com/hey-cjj/EvoDriveVLA。