History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation<br>面向高效视觉语言导航的历史条件时空视觉令牌剪枝方法<br>[摘要](abstracts/2603.06480.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）使机器人能够在视觉接地环境中遵循自然语言指令，成为具身机器人系统的关键能力。近期视觉-语言-动作（VLA）模型展现出强大的导航性能，但其高计算成本带来的延迟限制了实时部署。我们提出一种无需训练的时空视觉令牌剪枝框架，专为基于VLA的VLN设计。该方法对当前视图应用空间令牌选择，并结合历史记忆的时空压缩，在减少冗余计算的同时实现高效的长时程推理。通过利用基于注意力的令牌重要性评估和查询引导的时空过滤，所提方法无需重新训练或修改预训练模型即可保留导航相关信息，实现即插即用的现有VLA系统集成。在标准VLN基准测试上的实验表明，本方法显著优于现有剪枝策略，在极端剪枝场景下成功保持卓越的导航精度，同时维持极具竞争力的推理效率。在宇树Go2四足机器人上的实际部署进一步验证了该方法在现实机器人约束下能够实现可靠、低延迟的指令跟随导航。我们期望这项工作有助于弥合大规模多模态建模与机器人导航系统中高效实时具身部署之间的鸿沟。

← Back