OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms<br>OmniVLN:面向空地和地面平台视觉语言导航的全向三维感知与令牌高效大语言模型推理<br>[摘要](abstracts/2603.17351.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

语言引导的具身导航要求智能体能够解析涉及对象的指令,在多个房间中搜索,定位参考目标,并执行可靠的运动接近目标。现有系统在真实室内环境中仍存在局限,因为狭窄视场感知仅能在每一步暴露局部场景片段,常迫使机器人反复旋转,延迟目标发现,并导致空间理解碎片化;同时,直接向大语言模型输入密集三维地图或详尽物体列表会迅速超出上下文预算。本文提出OmniVLN,一种零样本视觉语言导航框架,它结合了全向三维感知与令牌高效的层次化推理,适用于空中和地面机器人。OmniVLN将旋转激光雷达与全景视觉融合为硬件无关的建图栈,从网格几何到房间及建筑层级结构逐步构建五层动态场景图(DSG),并通过基于持续同调的房间划分和几何/视觉语言模型混合关系验证来稳定高层拓扑。在导航过程中,全局DSG被转换为以智能体为中心的三维八分体表示,结合多分辨率空间注意力提示,使大语言模型能够逐步筛选候选房间、推断以自我为中心的朝向、定位目标物体,并输出可执行的导航基元,同时保留精细的局部细节和紧凑的长程记忆。实验表明,所提出的层次化接口将空间指代准确率从77.27%提升至93.18%,在杂乱多房间环境中累计提示令牌减少高达61.7%,导航成功率较扁平列表基线提升最高达11.68%。我们将发布代码和一个全向多模态数据集,以支持可复现的研究。

← Back