TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation<br>TrajRAG：为零样本目标导航检索几何-语义经验<br>[摘要](abstracts/2605.01700.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的零样本目标导向导航方法通常利用大语言模型或视觉-语言模型中的常识知识来指导导航。然而，这类知识来源于互联网规模的文本而非具身3D经验，且导航过程中收集的片段化观测通常被丢弃，阻碍了终身经验的积累。为此，我们提出轨迹RAG（TrajRAG），这是一种检索增强生成框架，通过检索几何-语义经验来增强大模型推理能力。TrajRAG逐步积累来自过去导航片段的片段化观测。为结构化这些观测，我们提出一种拓扑-极坐标轨迹表示方法，该方法紧凑地编码空间布局和语义上下文，有效消除原始片段化观测中的冗余。进一步地，分层分块结构将相似的拓扑-极坐标轨迹组织为统一摘要，支持从粗到细的检索。在导航过程中，候选前沿点生成多个轨迹假设，这些假设查询TrajRAG以获取相似的过去轨迹，从而指导大模型进行航点选择的推理。新经验持续整合到TrajRAG中，实现终身导航经验的积累。在MP3D、HM3D-v1和HM3D-v2上的实验表明，TrajRAG有效检索相关的几何-语义经验，并提升零样本目标导向导航性能。

← Back