Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization<br>重新审视视觉-语言-动作模型的规模化:对齐、混合与正则化<br>[摘要](abstracts/2602.09722.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作(VLA)模型在通用机器人控制方面展现出巨大潜力,但标准化的“数据规模化”方法是否适用于机器人领域仍不明确,因为机器人训练数据在具体实现、传感器和动作空间上天然具有异质性。本文对VLA模型的规模化进行了系统且受控的研究,重新审视了跨不同机器人预训练的核心训练选择。我们采用一个代表性的VLA框架,将视觉-语言骨干网络与流匹配相结合,在匹配条件下消融关键设计决策,并通过广泛的仿真和真实机器人实验进行评估。为提高真实世界结果的可靠性,我们引入了分组盲测集成协议,该协议使操作员对模型身份不知情,并将策略执行与结果判断分离,从而减少实验者偏差。我们的分析聚焦于VLA规模化的三个维度:(1)物理对齐:研究表明,统一的末端执行器相对动作表示对于实现稳健的跨实现迁移至关重要。(2)实现混合:我们发现,简单混合异构机器人数据集往往导致负迁移而非性能提升,这凸显了不加区分的数据规模化的脆弱性。(3)训练正则化:我们观察到,直观的策略(如感官丢弃和多阶段微调)在大规模训练中并不能持续提升性能。总之,本研究挑战了关于具身智能规模化的一些常见假设,并为从多样化机器人数据中训练大规模VLA策略提供了实用指导。项目网站:https://research.beingbeyond.com/rethink_vla

← Back