Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline<br>重新审视视觉-语言-动作模型的实用性：一个综合性基准与改进基线<br>[摘要](abstracts/2602.22663.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型已成为一种通用机器人智能体。然而，现有VLA模型受限于过大的参数量、高昂的预训练成本以及对多样化机器人形态的有限适应性。为提升VLA的实用性，我们提出了一个综合性基准与改进基线。首先，我们构建了CEBench基准测试集，涵盖仿真与真实世界的多样化机器人形态，并考虑了领域随机化因素。我们收集了14.4万条仿真轨迹与1.6万条专家标注的真实世界轨迹以支持CEBench的训练。其次，以CEBench为实验平台，我们研究了VLA实用性的三个关键维度，并得出若干重要发现。基于这些发现，我们提出了LLaVA-VLA——一个轻量级且功能强大的VLA模型，专为消费级GPU的实际部署设计。在架构上，它融合了紧凑的视觉语言模型骨干网络、多视角感知、本体感觉标记化与动作分块技术。为摆脱对昂贵预训练的依赖，LLaVA-VLA采用包含后训练与微调的两阶段训练范式。此外，该模型通过扩展动作空间实现了导航与操作任务的统一。跨形态实验证明了LLaVA-VLA的泛化能力与多功能性，而真实世界移动操作实验则使其成为首个端到端的移动操作VLA模型。我们将在论文录用后开源全部数据集、代码与模型权重，以促进可复现性与未来研究。

← Back