P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation<br>P$^{3}$Nav：面向视觉与语言导航的端到端感知、预测与规划框架<br>[摘要](abstracts/2603.17459.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉与语言导航任务中，智能体需依据语言指令，利用视觉观察规划通往目标的路径。现有主流方法主要致力于通过视觉-文本对齐构建强大的规划器，但往往忽视了规划前对场景进行全面理解的重要性，导致智能体感知或预测能力不足。为此，我们提出P$^{3}$Nav，一种新颖的端到端框架，将感知、预测与规划整合至统一流程中，以增强VLN智能体的场景理解能力并提升导航成功率。具体而言，P$^{3}$Nav通过从物体级和地图级视角提取互补线索来强化感知能力；随后，模型预测路径点以建模智能体潜在的未来状态，使其在导航过程中具备对候选位置的内在感知。基于这些未来路径点，P$^{3}$Nav进一步预测语义地图线索，实现前瞻性规划，减少对纯历史上下文的严格依赖。综合这些感知与预测线索，一个整体规划模块最终执行VLN任务。大量实验表明，P$^{3}$Nav在REVERIE、R2R-CE和RxR-CE基准测试中取得了新的最先进性能。

← Back