Abstract not available.
视觉语言导航旨在使智能体能够理解自然语言指令,并在真实环境中执行适当的导航动作。现有研究大多集中于室内场景,对复杂户外场景的探索较少。当前的无人机视觉语言导航模型通常作为黑箱运行,缺乏明确的推理过程。受OpenFly提出的城市建筑环境启发,我们引入了自由飞行思维,这是一个端到端的视觉语言导航框架,能够将无人机的第一视角图像和语言指令转化为一系列动作。我们首先构建了一个用于导航任务的无人机数据集,并执行自然语言思维链推理。我们采用两阶段训练策略:监督微调和强化微调。在未见过的测试集上的实验展示了强大的性能,证明了该方法在无人机导航问题上的鲁棒性和高效性。