Abstract not available.
随着具身人工智能向现实世界部署过渡,视觉与语言导航任务的成功标准正从单纯的可达性转向社会合规性。然而,现有智能体常陷入‘目标驱动陷阱’,优先考虑物理几何条件(‘能否通过?’)而忽视语义规则(‘是否允许通过?’),频繁忽略细微的监管约束。为弥合这一差距,我们建立了Rule-VLN——首个面向规则合规导航的大规模城市基准测试。该基准覆盖包含2.9万个节点的庞大环境,在四个课程难度级别中向8000个受约束节点注入了177种不同的监管类别,通过细粒度的视觉与行为约束挑战智能体。我们进一步提出语义导航校正模块,这是一种通用的零样本模块,旨在为预训练智能体赋予安全感知能力。该模块整合了从粗到细的视觉感知视觉语言模型框架与用于动态绕行规划的认知心理地图。实验表明,尽管Rule-VLN对当前最先进模型构成挑战,但语义导航校正模块显著恢复了导航能力,将约束违规率降低19.26%,同时将任务完成率提升5.97%。