3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting<br>3DGSNav：通过主动3D高斯泼溅增强视觉语言模型在物体导航中的推理能力<br>[摘要](abstracts/2602.12159.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

物体导航是具身智能的核心能力，使智能体能够在未知环境中定位目标物体。视觉语言模型（VLMs）的最新进展推动了零样本物体导航（ZSON）的发展。然而，现有方法通常依赖于将环境转换为语义地图或文本表示的场景抽象，导致高层决策受限于低层感知的准确性。本文提出3DGSNav，一种新颖的ZSON框架，通过嵌入3D高斯泼溅（3DGS）作为VLMs的持久记忆来增强空间推理。通过主动感知，3DGSNav逐步构建环境的3DGS表示，实现基于轨迹引导的、前沿感知的第一人称自由视点渲染。此外，我们设计了结构化视觉提示，并将其与思维链（CoT）提示相结合，以进一步提升VLM的推理能力。在导航过程中，实时物体检测器过滤潜在目标，而VLM驱动的主动视点切换执行目标重新验证，确保高效可靠的识别。在多个基准测试中的广泛评估以及在四足机器人上的真实世界实验表明，我们的方法相较于最先进方法实现了稳健且具有竞争力的性能。项目页面：https://aczheng-cai.github.io/3dgsnav.github.io/

← Back