Abstract not available.
视觉语言导航(VLN)通过扩展数据和模型容量取得了显著进展。然而,静态环境的假设在真实室内场景中难以成立,因为机器人不可避免地会遇到移动的行人。现有的人类感知方法通常仅基于隐式视觉线索将人视为移动障碍物,缺乏解释人类意图或维护社会规范所需的显式推理能力。为解决这一问题,我们提出了首个以人为中心的VLN框架HCSG。该框架为动态人机环境中的安全、社交智能导航提供了坚实基础,将范式从被动避障转变为主动理解人类行为。具体而言,HCSG引入了一个统一的人类理解模块,协同两种关键能力:(i)几何预测,预测人体姿态和轨迹以预判未来运动动态;(ii)语义解释,利用视觉语言模型(VLM)生成人类动作和意图的自然语言描述。这些语义-几何表示被融合到智能体的拓扑地图中,用于指令条件规划。此外,引入了社交距离损失以强制执行符合社交规范的交互距离。在HA-VLNCE基准上的大量实验表明,HCSG显著优于现有最先进方法,成功率提升了14%,碰撞率降低了34%。项目主页可见https://haoxuanxu1024.github.io/HCSG/。