Exploring Bottlenecks in VLM-LLM Navigation: How 3D Scene Understanding Capability Impacts Zero-Shot VLN<br>探索VLM-LLM导航中的瓶颈:3D场景理解能力如何影响零样本VLN<br>[摘要](abstracts/2605.14801.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

零样本视觉与语言导航(VLN)因其极低的数据收集成本和固有的泛化能力而受到广泛关注。该范式通常由预训练的视觉-语言模型(VLM)和大语言模型(LLM)集成驱动,其中VLM构建3D场景图,而LLM负责高级推理和决策。然而,该系统存在一个关键瓶颈:当前的3D感知模型优先考虑像素级精度,这与具身导航要求的严格计算限制和实时效率直接冲突。为弥补这一差距,本文量化了3D场景理解能力对VLN性能的实际影响。基于典型的VLM-LLM框架,我们为两个核心子系统提出了统计成功率上限:1)依赖拓扑映射语义的慢速LLM规划器,以及2)利用空间坐标和边界框执行LLM决策的快速反应型导航器。使用最先进的3D场景理解模型进行的评估验证了所提出的上限,并揭示了一种感知饱和现象,即感知精度的提升超过一定阈值后,对导航成功率的收益会递减。我们的发现表明,用于VLN的3D场景理解应摆脱严格的像素级精度,转而优先考虑导航相关的核心词汇和准确的边界框比例。

← Back