The Essence of Balance for Self-Improving Agents in Vision-and-Language Navigation<br>视觉-语言导航中自我改进代理的平衡本质<br>[摘要](abstracts/2604.19064.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉-语言导航（VLN）中，仅使用标准VLN动作监督从策略生成的经验中进行自我改进，关键取决于行为多样性与学习稳定性之间的平衡，这决定了智能体能否提取出可靠的改进学习信号。增加行为多样性对于暴露替代动作假设是必要的，但可能破坏策略驱动的学习信号的稳定性；而过保守的稳定性约束则会抑制探索并导致过早固化，使可靠的自我改进变得困难。为应对这一挑战，我们提出稳定性-多样性平衡（SDB），这是一种即插即用的机制，用于VLN中的平衡自我改进。SDB通过对指令条件隐藏状态施加受控偏移，将每个决策步骤扩展为多个潜在行为假设，然后在学习过程中执行可靠性感知的软评估与聚合，以保留多样且与指令一致的替代方案。一个显式正则化器进一步约束假设之间的交互，防止假设多样性的过度漂移或过早坍缩，从而在不丢弃训练信号的情况下稳定自我改进。在R2R、SOON和REVERIE上的实验显示了一致性的改进；例如，在REVERIE的val-unseen上，SDB将SPL从33.73提升至35.93，将OSR从51.07提升至54.25。

← Back