Abstract not available.
视觉语言导航长期以来受限于模拟器构建数据集的有限多样性和可扩展性,这些数据集难以捕捉真实世界环境的复杂性。为克服这一局限,我们引入了一个基于网络室内导览视频的大规模视频-指令框架,使智能体能够从多样、真实的室内场景中的人类自然行走演示中学习。与现有数据集不同,我们的框架整合了开放式的描述增强轨迹和三维重建的动作增强轨迹,提供了更丰富的空间与语义监督。本工作的一个关键扩展是引入了隐式几何表征,它直接从RGB帧中提取空间线索,无需依赖脆弱的3D重建。该方法显著提升了数据利用率,缓解了重建失败问题,并释放了大量先前无法使用的视频数据。在多个视觉语言导航基准(CVDN、SOON、R2R和REVERIE)上的综合实验表明,我们的方法不仅实现了新的最先进性能,还支持开发鲁棒的零样本导航智能体。通过将大规模网络视频与隐式空间推理相结合,本研究推动了具身导航向更具可扩展性、泛化性和现实应用潜力的解决方案迈进。