Abstract not available.
视觉-语言-动作模型日益依赖辅助世界模块进行长程规划,然而在预训练VLA基础上如何参数化此类模块仍是一个开放的设计问题。现有世界模型增强型VLA通常将每帧视觉流以高视觉带宽传入世界模块,并将其展开作为动作预测的副产品;在冻结主干网络的有限适配预算下,这导致每帧表示和潜在动作耦合均未得到充分研究。我们提出OneWM-VLA,通过自适应注意力池化将每帧视图压缩为单个语义token,并采用单一流匹配目标生成潜在流和动作轨迹,而非通过独立解码器连接二者。实验表明,在我们的设定下,每帧视觉带宽可缩减至单个token且不影响长程性能。OneWM-VLA在π₀(2B)主干网络上仅使用1471万LoRA参数进行训练,即可在MetaWorld MT50上将平均成功率从47.9%提升至61.3%,在LIBERO-Long上达到95.6%(π₀为85.2%),并在真实Piper机械臂的长程可变形任务Fold Cloth上达到60.0%(π₀为20.0%)。