One Agent to Guide Them All: Empowering MLLMs for Vision-and-Language Navigation via Explicit World Representation<br>一智体引领全局:通过显式世界表征赋能多模态大语言模型实现视觉与语言导航<br>[摘要](abstracts/2602.15400.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

可导航智能体需同时理解高层语义指令与精确空间感知。基于多模态大语言模型(MLLMs)构建导航智能体因其强大的泛化能力展现出广阔前景,但当前紧耦合的设计严重制约了系统性能。本研究提出一种解耦设计,将低层空间状态估计与高层语义规划分离。区别于以往依赖预定义、过度简化的文本地图的方法,我们引入一种交互式度量世界表征,该表征能保持丰富且一致的信息,使MLLMs能够与之交互并进行推理决策。此外,通过引入反事实推理进一步激发MLLMs的潜能,而度量世界表征确保了生成动作的物理有效性。我们在仿真与真实环境中进行了全面实验:本方法在零样本条件下刷新了最佳性能,在R2R-CE和RxR-CE基准测试中分别达到48.8%和42.2%的成功率。为验证度量表征的普适性,我们展示了跨多样实体(包括轮式TurtleBot 4机器人及定制空中无人机)的零样本仿真到现实迁移能力。这些真实场景部署证实,我们的解耦框架为具身视觉与语言导航提供了鲁棒且领域无关的接口。

← Back