One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy<br>每帧单Token：重新审视VLA策略中世界模型的视觉带宽<br>[摘要](abstracts/2605.07931.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型日益依赖辅助世界模块进行长程规划，然而在预训练VLA基础上如何参数化此类模块仍是一个开放的设计问题。现有世界模型增强型VLA通常将每帧视觉流以高视觉带宽传入世界模块，并将其展开作为动作预测的副产品；在冻结主干网络的有限适配预算下，这导致每帧表示和潜在动作耦合均未得到充分研究。我们提出OneWM-VLA，通过自适应注意力池化将每帧视图压缩为单个语义token，并采用单一流匹配目标生成潜在流和动作轨迹，而非通过独立解码器连接二者。实验表明，在我们的设定下，每帧视觉带宽可缩减至单个token且不影响长程性能。OneWM-VLA在π₀（2B）主干网络上仅使用1471万LoRA参数进行训练，即可在MetaWorld MT50上将平均成功率从47.9%提升至61.3%，在LIBERO-Long上达到95.6%（π₀为85.2%），并在真实Piper机械臂的长程可变形任务Fold Cloth上达到60.0%（π₀为20.0%）。

← Back