PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation<br>PROSPECT:通过语义-空间融合与潜在预测表征实现统一的流式视觉语言导航<br>[摘要](abstracts/2603.03739.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型(MLLMs)推动了零样本端到端视觉语言导航(VLN)的发展,但鲁棒的导航不仅需要语义理解,还需对环境动态和空间结构进行预测建模。我们提出了PROSPECT,一个统一的流式导航智能体,它将流式视觉-语言-动作(VLA)策略与潜在预测表征学习相结合。PROSPECT采用CUT3R作为流式3D基础空间编码器,生成长上下文、绝对尺度的空间特征,并通过交叉注意力将其与SigLIP语义特征融合。在训练过程中,我们引入了可学习的流式查询令牌,这些令牌查询流式上下文并预测下一步的2D和3D潜在特征(而非像素或显式模态),并在冻结的SigLIP和CUT3R教师的潜在空间中进行监督。预测分支在不增加推理开销的情况下塑造内部表征。在VLN-CE基准测试和真实机器人部署上的实验表明,该方法实现了最先进的性能,并在不同光照条件下提升了长时程鲁棒性。我们将很快向社区发布代码。

← Back