FASTER: Rethinking Real-Time Flow VLAs<br>FASTER：重新思考实时流式视觉语言动作模型<br>[摘要](abstracts/2603.19199.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

实时执行对于在物理世界中部署视觉-语言-动作（VLA）模型至关重要。现有的异步推理方法主要优化轨迹平滑度，但忽略了响应环境变化的关键延迟。通过重新思考动作分块策略中的反应概念，本文对影响反应时间的因素进行了系统性分析。我们发现反应时间遵循由首次动作时间（TTFA）和执行视野共同决定的均匀分布。此外，我们揭示了在基于流的VLA中应用恒定调度策略的标准做法可能效率低下，并迫使系统在开始任何动作之前完成所有采样步骤，从而形成反应延迟的瓶颈。为克服这一问题，我们提出了即时反应快速动作采样（FASTER）。通过引入视野感知调度，FASTER在流采样过程中自适应地优先处理近期动作，将即时反应的去噪过程压缩十倍（例如在$π_{0.5}$和X-VLA中）至单一步骤，同时保持长视野轨迹的质量。结合流式客户端-服务器流水线，FASTER显著降低了真实机器人上的有效反应延迟，尤其在消费级GPU上部署时效果更为明显。真实世界实验（包括高度动态的乒乓球任务）证明，FASTER为通用策略解锁了前所未有的实时响应能力，能够快速生成准确且平滑的轨迹。

← Back