Abstract not available.
在视觉与语言导航任务中,智能体需依据语言指令,利用视觉观察规划通往目标的路径。现有主流方法主要致力于通过视觉-文本对齐构建强大的规划器,但往往忽视了规划前对场景进行全面理解的重要性,导致智能体感知或预测能力不足。为此,我们提出P$^{3}$Nav,一种新颖的端到端框架,将感知、预测与规划整合至统一流程中,以增强VLN智能体的场景理解能力并提升导航成功率。具体而言,P$^{3}$Nav通过从物体级和地图级视角提取互补线索来强化感知能力;随后,模型预测路径点以建模智能体潜在的未来状态,使其在导航过程中具备对候选位置的内在感知。基于这些未来路径点,P$^{3}$Nav进一步预测语义地图线索,实现前瞻性规划,减少对纯历史上下文的严格依赖。综合这些感知与预测线索,一个整体规划模块最终执行VLN任务。大量实验表明,P$^{3}$Nav在REVERIE、R2R-CE和RxR-CE基准测试中取得了新的最先进性能。