Abstract not available.
在动态、以人为中心的环境中,机器人必须遵循语言指令,同时保持实时反应控制。视觉-语言-动作(VLA)模型提供了一个有前景的框架,但它们假设推理与控制在时间上对齐,尽管语义推理本质上相对于实时动作存在延迟。我们提出了思控一体化(TIC)-VLA,这是一个延迟感知框架,在动作生成过程中显式建模延迟的语义推理。TIC-VLA定义了一个延迟的语义-控制接口,除了当前观测外,还将动作生成条件化于延迟的视觉-语言语义状态和显式延迟元数据,使策略能够补偿异步推理。我们进一步提出了一种延迟一致性训练流程,在模仿学习和在线强化学习中注入推理延迟,使训练与异步部署保持一致。为了支持真实评估,我们推出了DynaNav,这是一个物理精确、照片级逼真的仿真套件,用于动态环境中的语言引导导航。在仿真和真实机器人上的大量实验表明,TIC-VLA在数秒推理延迟下持续优于先前的VLA模型,同时保持稳健的实时控制。项目网站:https://ucla-mobility.github.io/TIC-VLA/