How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace<br>大型多模态模型距离人类水平空间行动能力还有多远?面向城市空域目标导向具身导航的基准测试<br>[摘要](abstracts/2604.07973.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型多模态模型展现出强大的视觉-语言推理能力,但其空间决策与行动能力尚不明确。本研究通过一个挑战性场景——城市三维空间中的目标导向导航,探究大型多模态模型能否实现类人的具身空间行动。我们首先投入超过500小时构建了一个包含5,037个高质量目标导向导航样本的数据集,重点关注三维垂直行动与丰富的城市语义信息。随后,我们对17个代表性模型进行了全面评估,包括非推理型大型多模态模型、推理型大型多模态模型、基于智能体的方法以及视觉-语言-行动模型。实验表明,当前大型多模态模型已显现出初步的行动能力,但仍远未达到人类水平。此外,我们发现了一个有趣现象:导航误差并非线性累积,而是在关键决策分岔点后迅速偏离目的地。通过分析模型在这些关键决策分岔点的行为,我们深入探讨了大型多模态模型的局限性。最后,我们通过实验探索了四个有前景的改进方向:几何感知、跨视角理解、空间想象与长时记忆。项目开源地址:https://github.com/serenditipy-AC/Embodied-Navigation-Bench。

← Back