HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation<br>HCSG：面向视觉语言导航的以人为中心的语义-几何推理<br>[摘要](abstracts/2605.13321.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）通过扩展数据和模型容量取得了显著进展。然而，静态环境的假设在真实室内场景中难以成立，因为机器人不可避免地会遇到移动的行人。现有的人类感知方法通常仅基于隐式视觉线索将人视为移动障碍物，缺乏解释人类意图或维护社会规范所需的显式推理能力。为解决这一问题，我们提出了首个以人为中心的VLN框架HCSG。该框架为动态人机环境中的安全、社交智能导航提供了坚实基础，将范式从被动避障转变为主动理解人类行为。具体而言，HCSG引入了一个统一的人类理解模块，协同两种关键能力：（i）几何预测，预测人体姿态和轨迹以预判未来运动动态；（ii）语义解释，利用视觉语言模型（VLM）生成人类动作和意图的自然语言描述。这些语义-几何表示被融合到智能体的拓扑地图中，用于指令条件规划。此外，引入了社交距离损失以强制执行符合社交规范的交互距离。在HA-VLNCE基准上的大量实验表明，HCSG显著优于现有最先进方法，成功率提升了14%，碰撞率降低了34%。项目主页可见https://haoxuanxu1024.github.io/HCSG/。

← Back