MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation<br>MerNav:一种高度可泛化的记忆-执行-回顾框架,用于零样本目标导航<br>[摘要](abstracts/2602.05467.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)是具身智能的基本能力之一,也是一个亟待解决的关键挑战。然而,现有方法在成功率(SR)和泛化性方面均不尽如人意:监督微调(SFT)方法通常能获得更高的SR,而无训练(TF)方法则往往泛化性更好,但两者难以兼得。为此,我们提出了一种记忆-执行-回顾框架。该框架包含三个部分:一个用于提供信息支持的分层记忆模块,一个用于常规决策与行动的执行模块,以及一个用于处理异常情况并修正行为的回顾模块。我们在目标导航任务上验证了该框架的有效性。在4个数据集上,与所有基线方法相比,我们的平均SR在TF和零样本(ZS)设置下分别实现了7%和5%的绝对提升。在最常用的HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上,SR在ZS设置下分别提升了8%和6%。此外,在MP3D和HM3D_OVON数据集上,我们的方法不仅优于所有TF方法,还超越了所有SFT方法,在SR(分别提升5%和2%)和泛化性方面均实现了全面领先。

← Back