TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation<br>TrajRAG:为零样本目标导航检索几何-语义经验<br>[摘要](abstracts/2605.01700.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的零样本目标导向导航方法通常利用大语言模型或视觉-语言模型中的常识知识来指导导航。然而,这类知识来源于互联网规模的文本而非具身3D经验,且导航过程中收集的片段化观测通常被丢弃,阻碍了终身经验的积累。为此,我们提出轨迹RAG(TrajRAG),这是一种检索增强生成框架,通过检索几何-语义经验来增强大模型推理能力。TrajRAG逐步积累来自过去导航片段的片段化观测。为结构化这些观测,我们提出一种拓扑-极坐标轨迹表示方法,该方法紧凑地编码空间布局和语义上下文,有效消除原始片段化观测中的冗余。进一步地,分层分块结构将相似的拓扑-极坐标轨迹组织为统一摘要,支持从粗到细的检索。在导航过程中,候选前沿点生成多个轨迹假设,这些假设查询TrajRAG以获取相似的过去轨迹,从而指导大模型进行航点选择的推理。新经验持续整合到TrajRAG中,实现终身导航经验的积累。在MP3D、HM3D-v1和HM3D-v2上的实验表明,TrajRAG有效检索相关的几何-语义经验,并提升零样本目标导向导航性能。

← Back