FASTER: Rethinking Real-Time Flow VLAs<br>FASTER:重新思考实时流式视觉语言动作模型<br>[摘要](abstracts/2603.19199.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

实时执行对于在物理世界中部署视觉-语言-动作(VLA)模型至关重要。现有的异步推理方法主要优化轨迹平滑度,但忽略了响应环境变化的关键延迟。通过重新思考动作分块策略中的反应概念,本文对影响反应时间的因素进行了系统性分析。我们发现反应时间遵循由首次动作时间(TTFA)和执行视野共同决定的均匀分布。此外,我们揭示了在基于流的VLA中应用恒定调度策略的标准做法可能效率低下,并迫使系统在开始任何动作之前完成所有采样步骤,从而形成反应延迟的瓶颈。为克服这一问题,我们提出了即时反应快速动作采样(FASTER)。通过引入视野感知调度,FASTER在流采样过程中自适应地优先处理近期动作,将即时反应的去噪过程压缩十倍(例如在$π_{0.5}$和X-VLA中)至单一步骤,同时保持长视野轨迹的质量。结合流式客户端-服务器流水线,FASTER显著降低了真实机器人上的有效反应延迟,尤其在消费级GPU上部署时效果更为明显。真实世界实验(包括高度动态的乒乓球任务)证明,FASTER为通用策略解锁了前所未有的实时响应能力,能够快速生成准确且平滑的轨迹。

← Back