Adaptive Action Chunking at Inference-time for Vision-Language-Action Models<br>视觉-语言-动作模型在推理时自适应动作分块<br>[摘要](abstracts/2604.04161.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉-语言-动作(VLA)模型中,动作分块(即在不进行中间重新规划的情况下执行一系列动作)是提升机器人操作能力的关键技术。然而,较大的分块尺寸会降低模型对新信息的响应能力,而较小的分块尺寸则可能增加模式跳跃(即分块间不连续导致的生硬行为)的风险。因此,选择最优的分块尺寸成为平衡模型反应性与一致性的迫切需求。遗憾的是,当前VLA模型普遍采用经验性固定分块长度进行推理,这限制了其在多样化操作任务中的优越性和可扩展性。为解决这一问题,我们提出了一种新颖的自适应动作分块(AAC)策略,该策略利用动作熵作为线索,基于当前预测自适应地确定分块尺寸。在大量模拟和真实世界机器人操作任务上的广泛实验表明,我们的方法显著超越了现有最先进替代方案的性能。相关视频和源代码已公开于https://lance-lot.github.io/adaptive-chunking.github.io/。

← Back