Multi-Scale Gaussian-Language Map for Zero-shot Embodied Navigation and Reasoning<br>多尺度高斯语言地图用于零样本具身导航与推理<br>[摘要](abstracts/2605.01736.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

理解环境的几何与语义结构对具身导航和推理至关重要。现有语义建图方法在显式几何与多尺度语义之间权衡,且缺乏面向大模型的原生接口,因此需要额外训练特征投影以实现语义对齐。为此,我们提出了多尺度高斯语言地图(GLMap),其引入三项关键设计:(1) 显式几何,(2) 覆盖实例与区域概念的跨尺度语义,(3) 双模态接口——每个语义单元联合存储自然语言描述与三维高斯表示。三维高斯表示通过高斯泼溅实现紧凑存储和任务相关图像的快速渲染。为支持高效增量构建,我们进一步提出高斯估计器,该估计器无需基于梯度的优化,即可从密集点云中解析推导高斯参数。在ObjectNav、InstNav和SQA任务上的实验表明,GLMap有效提升了目标导航与上下文推理能力,同时以零样本方式兼容基于大模型的方法。代码开源于https://github.com/sx-zhang/GLMap。

← Back