Abstract not available.
视觉语言导航(VLN)近期受益于多模态大语言模型(MLLMs),实现了零样本导航。尽管当前基于探索的零样本方法通过利用全局场景先验已展现出良好效果,但这些方法依赖于高质量的人工构建场景重建,在实际机器人部署中并不实用。面对未知环境时,机器人应通过预探索自主构建先验知识。然而,这些自主重建结果不可避免地存在不完整性与噪声,严重影响了依赖高质量场景重建的方法性能。为解决上述问题,我们提出SpatialAnt——一个旨在弥合不完美自主重建与鲁棒执行间差距的零样本导航框架。SpatialAnt引入物理 grounding 策略,为基于单目视觉的重建恢复绝对度量尺度。更重要的是,我们并未将含噪声的自主重建场景视为绝对空间参照,而是提出一种新颖的视觉预测机制。该机制利用含噪声点云渲染未来观测,使智能体能够进行反事实推理,并剪枝与人类指令相悖的路径。在仿真与真实环境中的大量实验表明,SpatialAnt显著优于现有零样本方法:在R2R-CE基准测试中达到66%成功率(SR),在RxR-CE基准测试中达到50.8% SR。在Hello Robot实体平台上的部署进一步验证了框架的效能,在极具挑战的真实场景中实现了52% SR。