TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments<br>TIC-VLA：一种用于动态环境中机器人导航的思控一体化视觉-语言-动作模型<br>[摘要](abstracts/2602.02459.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在动态、以人为中心的环境中，机器人必须遵循语言指令，同时保持实时反应控制。视觉-语言-动作（VLA）模型提供了一个有前景的框架，但它们假设推理与控制在时间上对齐，尽管语义推理本质上相对于实时动作存在延迟。我们提出了思控一体化（TIC）-VLA，这是一个延迟感知框架，在动作生成过程中显式建模延迟的语义推理。TIC-VLA定义了一个延迟的语义-控制接口，除了当前观测外，还将动作生成条件化于延迟的视觉-语言语义状态和显式延迟元数据，使策略能够补偿异步推理。我们进一步提出了一种延迟一致性训练流程，在模仿学习和在线强化学习中注入推理延迟，使训练与异步部署保持一致。为了支持真实评估，我们推出了DynaNav，这是一个物理精确、照片级逼真的仿真套件，用于动态环境中的语言引导导航。在仿真和真实机器人上的大量实验表明，TIC-VLA在数秒推理延迟下持续优于先前的VLA模型，同时保持稳健的实时控制。项目网站：https://ucla-mobility.github.io/TIC-VLA/

← Back