3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models<br>面向VLA的3D-Mix：将基于VGGT的三维信息集成到视觉-语言-动作模型中的即插即用模块<br>[摘要](abstracts/2603.24393.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型利用多模态大语言模型（MLLMs）实现机器人控制，但近期研究表明，由于主要基于二维数据进行训练，MLLMs的空间智能存在局限，导致在操作任务中三维感知能力不足。尽管现有方法通过引入VGGT等专用三维视觉模型来增强空间理解能力，但其集成机制多样且缺乏系统研究，最优融合策略尚不明确。我们通过对照实验系统比较了九种VGGT集成方案，发现语义条件门控融合方法——能根据任务上下文自适应平衡二维语义特征与三维几何特征——在九种融合方案中表现最优。本文提出3D-Mix模块，该即插即用模块可无缝集成至多种VLA架构（GR00T型与π型），无需修改现有MLLM或动作专家组件。在SIMPLER和LIBERO基准测试中，对六个MLLM系列（九种模型变体，参数量2B-8B）的实验表明：3D-Mix能带来稳定的性能提升，在九种GR00T型变体上，其跨域（OOD）SIMPLER基准测试平均提升达+7.0%，为增强VLA系统的空间智能提供了系统化解决方案。

← Back