Abstract not available.
基于大型推理模型(LRMs)构建的具身导航代理能够处理复杂的多模态环境输入,并在每一步执行基于场景的推理,以改善长时程任务的序列决策。然而,一个关键问题依然存在:如何智能且高效地利用LRMs的推理能力来完成长时程导航任务?在简单场景中,代理应能反射性地行动,而在复杂场景中则需在行动前进行深思熟虑。为此,我们提出了混合推理导航代理(HiRO-Nav),这是首类能够根据自身动作熵自适应决定每一步是否执行推理的代理。具体而言,通过分析代理动作熵在导航轨迹上的演变,我们发现仅有少量动作表现出高熵,而这些动作往往引导代理进入新场景或接近关键物体。进一步研究动作熵与任务完成度(即Q值)的关系表明,改进高熵动作对任务成功有更积极的贡献。因此,我们设计了一个定制化的训练流程,包括作为冷启动的混合监督微调,以及结合所提混合推理策略的在线强化学习,以明确仅在高熵动作时激活推理,从而在提升决策质量的同时显著降低计算开销。在CHORES-S ObjectNav基准测试上的大量实验表明,HiRO-Nav在成功率和令牌效率之间取得了比密集推理和无推理基线更好的平衡。