MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation<br>MerNav：一种高度可泛化的记忆-执行-回顾框架，用于零样本目标导航<br>[摘要](abstracts/2602.05467.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）是具身智能的基本能力之一，也是一个亟待解决的关键挑战。然而，现有方法在成功率（SR）和泛化性方面均不尽如人意：监督微调（SFT）方法通常能获得更高的SR，而无训练（TF）方法则往往泛化性更好，但两者难以兼得。为此，我们提出了一种记忆-执行-回顾框架。该框架包含三个部分：一个用于提供信息支持的分层记忆模块，一个用于常规决策与行动的执行模块，以及一个用于处理异常情况并修正行为的回顾模块。我们在目标导航任务上验证了该框架的有效性。在4个数据集上，与所有基线方法相比，我们的平均SR在TF和零样本（ZS）设置下分别实现了7%和5%的绝对提升。在最常用的HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上，SR在ZS设置下分别提升了8%和6%。此外，在MP3D和HM3D_OVON数据集上，我们的方法不仅优于所有TF方法，还超越了所有SFT方法，在SR（分别提升5%和2%）和泛化性方面均实现了全面领先。

← Back