Exploring Bottlenecks in VLM-LLM Navigation: How 3D Scene Understanding Capability Impacts Zero-Shot VLN<br>探索VLM-LLM导航中的瓶颈：3D场景理解能力如何影响零样本VLN<br>[摘要](abstracts/2605.14801.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

零样本视觉与语言导航（VLN）因其极低的数据收集成本和固有的泛化能力而受到广泛关注。该范式通常由预训练的视觉-语言模型（VLM）和大语言模型（LLM）集成驱动，其中VLM构建3D场景图，而LLM负责高级推理和决策。然而，该系统存在一个关键瓶颈：当前的3D感知模型优先考虑像素级精度，这与具身导航要求的严格计算限制和实时效率直接冲突。为弥补这一差距，本文量化了3D场景理解能力对VLN性能的实际影响。基于典型的VLM-LLM框架，我们为两个核心子系统提出了统计成功率上限：1）依赖拓扑映射语义的慢速LLM规划器，以及2）利用空间坐标和边界框执行LLM决策的快速反应型导航器。使用最先进的3D场景理解模型进行的评估验证了所提出的上限，并揭示了一种感知饱和现象，即感知精度的提升超过一定阈值后，对导航成功率的收益会递减。我们的发现表明，用于VLN的3D场景理解应摆脱严格的像素级精度，转而优先考虑导航相关的核心词汇和准确的边界框比例。

← Back