Abstract not available.
在视觉-语言导航(VLN)中,仅使用标准VLN动作监督从策略生成的经验中进行自我改进,关键取决于行为多样性与学习稳定性之间的平衡,这决定了智能体能否提取出可靠的改进学习信号。增加行为多样性对于暴露替代动作假设是必要的,但可能破坏策略驱动的学习信号的稳定性;而过保守的稳定性约束则会抑制探索并导致过早固化,使可靠的自我改进变得困难。为应对这一挑战,我们提出稳定性-多样性平衡(SDB),这是一种即插即用的机制,用于VLN中的平衡自我改进。SDB通过对指令条件隐藏状态施加受控偏移,将每个决策步骤扩展为多个潜在行为假设,然后在学习过程中执行可靠性感知的软评估与聚合,以保留多样且与指令一致的替代方案。一个显式正则化器进一步约束假设之间的交互,防止假设多样性的过度漂移或过早坍缩,从而在不丢弃训练信号的情况下稳定自我改进。在R2R、SOON和REVERIE上的实验显示了一致性的改进;例如,在REVERIE的val-unseen上,SDB将SPL从33.73提升至35.93,将OSR从51.07提升至54.25。