LCLA: Language-Conditioned Latent Alignment for Vision-Language Navigation<br>LCLA:面向视觉语言导航的语言条件化潜在对齐框架<br>[摘要](abstracts/2602.07629.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了LCLA(语言条件化潜在对齐),一种用于视觉语言导航的框架,通过学习将感知观察对齐到专家策略的潜在表示,构建模块化的感知-动作接口。首先利用特权状态信息训练专家策略,生成一个足以支持控制的潜在空间,随后冻结其潜在接口和动作头部。接着训练一个轻量级适配器,通过冻结的视觉语言模型将原始视觉-语言观察映射到专家的潜在空间中,从而将视觉运动学习问题简化为监督式潜在对齐,而非端到端的策略优化。这种解耦强化了感知与控制之间的稳定契约,使得专家行为能够在不同感知模态和环境变化中复用。我们在视觉语言室内导航任务中实例化LCLA并进行评估,结果表明对齐的潜在空间在分布内任务上表现优异,且能零样本泛化至未见过的环境、光照条件和视角,同时在推理阶段保持轻量化。

← Back