Abstract not available.
视觉与语言导航任务要求具身智能体根据自然语言指令在复杂三维环境中进行导航。近期大语言模型的发展提升了语言驱动导航的可解释性。然而,大多数基于大语言模型的智能体仍依赖单次动作决策机制,即模型必须从带有噪声的多视角文本化观察结果中选择一个选项。由于局部信息不匹配及中间推理过程的不完善,此类决策极易偏离正确路径,导致误差累积并在未知环境中降低可靠性。本文提出DV-VLN——一种遵循“生成-验证”范式的新型视觉与语言导航框架。该框架首先对开源LLaMA-2主干网络进行参数高效的领域内适配,以生成结构化的导航思维链,随后通过两个互补通道验证候选动作:真伪验证与掩码实体验证。DV-VLN通过聚合多个样本的验证成功次数来选择动作,并生成可解释的分数进行重排序。在R2R、RxR(英文子集)和REVERIE数据集上的实验表明,DV-VLN相较于直接预测和纯采样基线方法均取得稳定提升,在纯语言视觉与语言导航智能体中达到竞争性性能,与多种跨模态系统相比亦展现出有前景的结果。代码已开源:https://github.com/PlumJun/DV-VLN。