The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling<br>压缩鸿沟：为何离散标记化限制视觉-语言-动作模型的扩展<br>[摘要](abstracts/2604.03191.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

通过升级视觉编码器来扩展视觉-语言-动作（VLA）模型，预期能提升下游操作性能——正如在视觉-语言建模中所见。我们证明，当动作被表示为离散标记时，这一预期并不成立，并通过一个信息论原则——我们称之为“压缩鸿沟”——来解释原因：在任何视觉-动作流程中，扩展行为受制于最紧信息瓶颈的位置。当动作是连续的（例如扩散策略）时，视觉编码器是约束瓶颈，升级它可直接提升性能。当动作通过固定容量的码本（例如OAT）被离散化时，码本成为约束瓶颈，编码器的改进无法跨越此瓶颈传递——无论上游表示多么丰富。我们在LIBERO基准上通过三条证据验证了这一原则：一项因子实验显示，编码器升级使扩散策略性能提升超过21个百分点，而OAT的增益在各模型规模上均大幅减弱；一项跨越四个编码器的编码器质量梯度实验证实，扩散策略随编码器质量单调提升，而OAT保持平坦；一项码本大小实验表明，放宽码本容量可部分恢复编码器敏感性，为瓶颈假设提供了因果证据。我们的发现揭示，物理人工智能的扩展需要识别流程中的信息瓶颈位置，而非统一增加模型或数据规模。

← Back