3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models<br>面向VLA的3D-Mix:将基于VGGT的三维信息集成到视觉-语言-动作模型中的即插即用模块<br>[摘要](abstracts/2603.24393.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型利用多模态大语言模型(MLLMs)实现机器人控制,但近期研究表明,由于主要基于二维数据进行训练,MLLMs的空间智能存在局限,导致在操作任务中三维感知能力不足。尽管现有方法通过引入VGGT等专用三维视觉模型来增强空间理解能力,但其集成机制多样且缺乏系统研究,最优融合策略尚不明确。我们通过对照实验系统比较了九种VGGT集成方案,发现语义条件门控融合方法——能根据任务上下文自适应平衡二维语义特征与三维几何特征——在九种融合方案中表现最优。本文提出3D-Mix模块,该即插即用模块可无缝集成至多种VLA架构(GR00T型与π型),无需修改现有MLLM或动作专家组件。在SIMPLER和LIBERO基准测试中,对六个MLLM系列(九种模型变体,参数量2B-8B)的实验表明:3D-Mix能带来稳定的性能提升,在九种GR00T型变体上,其跨域(OOD)SIMPLER基准测试平均提升达+7.0%,为增强VLA系统的空间智能提供了系统化解决方案。

← Back