The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling<br>压缩鸿沟:为何离散标记化限制视觉-语言-动作模型的扩展<br>[摘要](abstracts/2604.03191.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

通过升级视觉编码器来扩展视觉-语言-动作(VLA)模型,预期能提升下游操作性能——正如在视觉-语言建模中所见。我们证明,当动作被表示为离散标记时,这一预期并不成立,并通过一个信息论原则——我们称之为“压缩鸿沟”——来解释原因:在任何视觉-动作流程中,扩展行为受制于最紧信息瓶颈的位置。当动作是连续的(例如扩散策略)时,视觉编码器是约束瓶颈,升级它可直接提升性能。当动作通过固定容量的码本(例如OAT)被离散化时,码本成为约束瓶颈,编码器的改进无法跨越此瓶颈传递——无论上游表示多么丰富。我们在LIBERO基准上通过三条证据验证了这一原则:一项因子实验显示,编码器升级使扩散策略性能提升超过21个百分点,而OAT的增益在各模型规模上均大幅减弱;一项跨越四个编码器的编码器质量梯度实验证实,扩散策略随编码器质量单调提升,而OAT保持平坦;一项码本大小实验表明,放宽码本容量可部分恢复编码器敏感性,为瓶颈假设提供了因果证据。我们的发现揭示,物理人工智能的扩展需要识别流程中的信息瓶颈位置,而非统一增加模型或数据规模。

← Back