LCLA: Language-Conditioned Latent Alignment for Vision-Language Navigation<br>LCLA：面向视觉语言导航的语言条件化潜在对齐框架<br>[摘要](abstracts/2602.07629.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了LCLA（语言条件化潜在对齐），一种用于视觉语言导航的框架，通过学习将感知观察对齐到专家策略的潜在表示，构建模块化的感知-动作接口。首先利用特权状态信息训练专家策略，生成一个足以支持控制的潜在空间，随后冻结其潜在接口和动作头部。接着训练一个轻量级适配器，通过冻结的视觉语言模型将原始视觉-语言观察映射到专家的潜在空间中，从而将视觉运动学习问题简化为监督式潜在对齐，而非端到端的策略优化。这种解耦强化了感知与控制之间的稳定契约，使得专家行为能够在不同感知模态和环境变化中复用。我们在视觉语言室内导航任务中实例化LCLA并进行评估，结果表明对齐的潜在空间在分布内任务上表现优异，且能零样本泛化至未见过的环境、光照条件和视角，同时在推理阶段保持轻量化。

← Back