Hydra-Nav: Object Navigation via Adaptive Dual-Process Reasoning<br>Hydra-Nav:基于自适应双过程推理的目标导航<br>[摘要](abstracts/2602.09972.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型视觉语言模型在目标导航任务中展现出潜力,但现有方法仍面临成功率低、对未见物体定位效率不足的问题,这些失败主要归因于时空推理能力薄弱。近期尝试将推理机制注入基于视觉语言模型的智能体虽提升了成功率,却带来了显著的计算开销。为解决现有方法在效果与效率上的双重不足,本文提出Hydra-Nav——一种统一的自适应视觉语言模型架构,能够在用于分析探索历史并制定高层规划的审慎慢速系统与用于高效执行的反应式快速系统之间动态切换。我们通过三阶段课程学习训练Hydra-Nav:(1)空间-动作对齐以强化轨迹规划能力;(2)记忆-推理融合以提升长时探索中的时空推理能力;(3)迭代拒绝微调以实现关键决策点的选择性推理。大量实验表明,Hydra-Nav在HM3D、MP3D和OVON基准测试中均取得最先进的性能,分别超越次优方法11.1%、17.4%和21.2%。此外,我们提出SOT(操作时间加权成功率)这一新指标,用于衡量不同推理强度的视觉语言模型的搜索效率。实验结果显示,自适应推理机制相比固定频率基线方法显著提升了搜索效率。

← Back