Abstract not available.
视觉与语言导航要求智能体在视觉动态变化的环境中遵循自然语言指令。其核心挑战在于语言与观测之间的动态纠缠:随着智能体视野和空间环境的演变,指令的语义也随之变化。然而,现有许多模型将指令编码为静态的全局表示,限制了指令语义适应当前视觉情境的能力。因此,本文将指令理解建模为一种“指令即状态”变量:一个与决策相关的、令牌级别的指令状态,它随着智能体的感知状态条件逐步演化,其中感知状态表示每一步中观测所支撑的导航上下文。为实现这一原则,我们提出了状态纠缠的环境引导指令理解(S-EGIU),一种从粗到细的框架,用于状态条件化的指令段激活与令牌级语义细化。在粗粒度层面,S-EGIU激活与当前观测语义对齐的指令段。在细粒度层面,它通过观测引导的令牌定位和上下文建模来细化激活的指令段,在当前观测下优化其内部语义。这两个阶段共同维护一个在导航过程中根据智能体感知状态持续更新的指令状态。S-EGIU在多个关键指标上表现出强劲性能,包括在REVERIE测试未见集上SPL提升+2.68%,并且在多个VLN基准上展现出持续的效率提升,凸显了动态指令-感知纠缠的价值。