Abstract not available.
尽管视觉-语言模型(VLMs)能够为端到端自动驾驶提供高层语义推理,尤其是在非结构化环境中,但现有的越野数据集存在语言标注与车辆动作和地形几何弱对齐的问题。为解决这一错位,我们提出了一种语言精炼框架,将标注重构为动作对齐的配对,使VLM能够直接从单张图像生成精细的场景描述和3D未来轨迹。为进一步鼓励地形感知规划,我们引入了一种偏好优化策略,构建了几何感知的硬负样本,并显式惩罚与局部高程轮廓不一致的轨迹。此外,我们提出了越野专用指标来量化可通行性合规性和高程一致性,弥补了传统道路评估的局限。在ORAD-3D基准上的实验表明,我们的方法将平均轨迹误差从1.01米降至0.97米,可通行性合规性从0.621提升至0.644,高程不一致性从0.428降至0.322,凸显了动作对齐监督和地形感知优化在稳健越野驾驶中的有效性。