Abstract not available.
人类在陌生的大规模室内环境(如医院、机场航站楼)中导航时,通常会利用标识牌提供的语义提示来抵达目的地。然而,这一能力在具身导航领域尚未得到充分探索。本文提出了一种新颖的具身导航任务——SignNav,要求智能体能够解读标识牌的语义提示,并根据当前观察推理后续行动。为促进该领域的研究,我们构建了LSI数据集,用于训练和评估各类SignNav智能体。大规模室内环境中标识牌语义提示的动态变化及其稀疏分布,给SignNav任务带来了显著挑战。为应对这些挑战,我们提出了时空感知Transformer(START)模型,用于端到端决策。其中,空间感知模块将标识牌的语义提示与物理世界进行关联,而时间感知模块则捕捉历史状态与当前观察之间的长程依赖关系。通过采用基于数据集聚合(DAgger)的两阶段训练策略,我们的方法在val-unseen划分上实现了80%的成功率(SR)和0.74的NDTW指标,达到了最先进的性能水平。真实环境部署进一步验证了该方法在无预建地图的物理环境中的实用性。