Abstract not available.
视觉-语言-动作(VLA)模型已成为一种通用机器人智能体。然而,现有VLA模型受限于过大的参数量、高昂的预训练成本以及对多样化机器人形态的有限适应性。为提升VLA的实用性,我们提出了一个综合性基准与改进基线。首先,我们构建了CEBench基准测试集,涵盖仿真与真实世界的多样化机器人形态,并考虑了领域随机化因素。我们收集了14.4万条仿真轨迹与1.6万条专家标注的真实世界轨迹以支持CEBench的训练。其次,以CEBench为实验平台,我们研究了VLA实用性的三个关键维度,并得出若干重要发现。基于这些发现,我们提出了LLaVA-VLA——一个轻量级且功能强大的VLA模型,专为消费级GPU的实际部署设计。在架构上,它融合了紧凑的视觉语言模型骨干网络、多视角感知、本体感觉标记化与动作分块技术。为摆脱对昂贵预训练的依赖,LLaVA-VLA采用包含后训练与微调的两阶段训练范式。此外,该模型通过扩展动作空间实现了导航与操作任务的统一。跨形态实验证明了LLaVA-VLA的泛化能力与多功能性,而真实世界移动操作实验则使其成为首个端到端的移动操作VLA模型。我们将在论文录用后开源全部数据集、代码与模型权重,以促进可复现性与未来研究。