CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation<br>CapNav：基于能力条件室内导航的视觉语言模型基准测试<br>[摘要](abstracts/2602.18424.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型在视觉语言导航领域取得了显著进展，为导航决策提供了新的可能性，有望惠及机器人平台和人类用户。然而，现实世界的导航本质上受限于智能体的移动能力约束。例如，扫地机器人无法跨越楼梯，而四足机器人则可以。我们提出了能力条件导航基准，旨在评估视觉语言模型在给定智能体特定物理和操作能力的情况下，在复杂室内空间中导航的表现。该基准定义了五个代表性的人类和机器人智能体，每个智能体均描述了其物理尺寸、移动能力及环境交互能力。基准包含45个真实室内场景、473项导航任务和2365个问答对，以测试视觉语言模型是否能基于智能体能力在室内环境中行进。我们对13个现代视觉语言模型进行了评估，发现当前模型的导航性能随着移动约束的收紧而急剧下降，即使最先进的模型在处理需要空间维度推理的障碍类型时也面临困难。最后，我们讨论了能力感知导航的意义，以及未来视觉语言模型在具身空间推理方面的发展机遇。该基准可在https://github.com/makeabilitylab/CapNav获取。

← Back