Abstract not available.
通过使用多模态大语言模型,在未知环境中基于视觉的导航取得了突破性进展。这些模型能够根据当前视图与任务和目标的对齐情况,在每个时间步规划一系列运动。然而,当前由多模态大语言模型驱动的零样本视觉语言导航代理仍倾向于偏离路径、过早停止,且整体成功率较低。我们提出三步导航,通过三视角协议来应对这些失败:首先,“向前看”提取全局地标并勾勒粗略计划;然后,“现在看”将当前视觉观察与下一个子目标对齐以提供细粒度指导;最后,“向后看”审核整个轨迹,以在停止前纠正累积的漂移。我们的规划器无需梯度更新或任务特定的微调,能以最小开销嵌入现有视觉语言导航管线。三步导航在R2R-CE和RxR-CE数据集上实现了最先进的零样本性能。我们的代码可在https://github.com/ZoeyZheng0/3-step-Nav获取。