LiveVLN: Breaking the Stop-and-Go Loop in Vision-Language Navigation<br>LiveVLN：打破视觉语言导航中的走走停停循环<br>[摘要](abstracts/2604.19536.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

最近的导航系统在基准测试中取得了强劲的结果，但在实际部署中往往仍明显表现出走走停停的问题。这一瓶颈源于感知-推理-执行循环仍是阻塞式的：每次获得新观测后，控制器必须等待感知、传输和推理完成才能继续运动。因此仅降低动作生成成本并不能消除冗余等待。为解决此问题，我们提出了LiveVLN——一种无需训练、通过扩展预训练VLM导航器实现多步动作延续的框架，旨在实现更连续的具身导航。不同于为每轮完整的感知与推理而暂停，LiveVLN将执行与新到达观测的处理过程相重叠，使得在当前可执行前缀耗尽前就能传递更新后的未来动作。这种设计在运动过程中持续保持动作可用，减少了空闲等待并使在线执行更平滑。该框架在运行时工作，可与兼容的预训练VLM导航器集成。在R2R和RxR数据集上，LiveVLN在保持基准性能的同时减少了等待时间并提高了动作可用性。在实际部署中，其在StreamVLN上将平均回合等待时间降低了77.7%，在NaVIDA上将挂钟回合时间缩短了12.6%（后者为19.6%），使部署过程中的执行更加连贯。代码已开源：https://github.com/NIneeeeeem/LiveVLN。

← Back