PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation<br>PROSPECT：通过语义-空间融合与潜在预测表征实现统一的流式视觉语言导航<br>[摘要](abstracts/2603.03739.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）推动了零样本端到端视觉语言导航（VLN）的发展，但鲁棒的导航不仅需要语义理解，还需对环境动态和空间结构进行预测建模。我们提出了PROSPECT，一个统一的流式导航智能体，它将流式视觉-语言-动作（VLA）策略与潜在预测表征学习相结合。PROSPECT采用CUT3R作为流式3D基础空间编码器，生成长上下文、绝对尺度的空间特征，并通过交叉注意力将其与SigLIP语义特征融合。在训练过程中，我们引入了可学习的流式查询令牌，这些令牌查询流式上下文并预测下一步的2D和3D潜在特征（而非像素或显式模态），并在冻结的SigLIP和CUT3R教师的潜在空间中进行监督。预测分支在不增加推理开销的情况下塑造内部表征。在VLN-CE基准测试和真实机器人部署上的实验表明，该方法实现了最先进的性能，并在不同光照条件下提升了长时程鲁棒性。我们将很快向社区发布代码。

← Back