Abstract not available.
以往的视觉-语言-动作模型在导航任务中面临关键限制:数据稀缺且多样,依赖劳动密集型收集,以及静态表示无法捕捉时间动态和物理规律。我们提出NavDreamer,一个基于视频的三维导航框架,利用生成式视频模型作为语言指令与导航轨迹之间的通用接口。我们的核心假设是,视频编码时空信息和物理动态的能力,结合互联网规模的数据可用性,能够在导航中实现强大的零样本泛化。为减轻生成预测的随机性,我们引入一种基于采样的优化方法,利用视觉语言模型对轨迹进行评分和选择。通过逆动力学模型,从生成的视频计划中解码出可执行的路径点以执行导航。为系统评估该范式在多种视频模型骨干上的表现,我们提出了一个涵盖物体导航、精确导航、空间定位、语言控制和场景推理的综合基准。大量实验证明了其在未见过的物体和环境中的稳健泛化能力,消融研究揭示,导航的高层决策特性使其特别适合基于视频的规划。