Adaptive Action Chunking at Inference-time for Vision-Language-Action Models<br>视觉-语言-动作模型在推理时自适应动作分块<br>[摘要](abstracts/2604.04161.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉-语言-动作（VLA）模型中，动作分块（即在不进行中间重新规划的情况下执行一系列动作）是提升机器人操作能力的关键技术。然而，较大的分块尺寸会降低模型对新信息的响应能力，而较小的分块尺寸则可能增加模式跳跃（即分块间不连续导致的生硬行为）的风险。因此，选择最优的分块尺寸成为平衡模型反应性与一致性的迫切需求。遗憾的是，当前VLA模型普遍采用经验性固定分块长度进行推理，这限制了其在多样化操作任务中的优越性和可扩展性。为解决这一问题，我们提出了一种新颖的自适应动作分块（AAC）策略，该策略利用动作熵作为线索，基于当前预测自适应地确定分块尺寸。在大量模拟和真实世界机器人操作任务上的广泛实验表明，我们的方法显著超越了现有最先进替代方案的性能。相关视频和源代码已公开于https://lance-lot.github.io/adaptive-chunking.github.io/。

← Back