Abstract not available.
视觉-语言-动作(VLA)模型因其能够将多模态观测与语言指令转化为期望的机器人动作而受到研究界的广泛关注。尽管取得了进展,VLA模型往往忽视显式推理,仅学习功能性的输入-动作映射,忽略了关键的逻辑步骤,这在复杂、长视野操作任务的可解释性和泛化性方面尤为突出。本文提出ReFineVLA,一种多模态推理感知框架,通过教师引导的推理对VLA模型进行微调。我们首先利用专家教师模型生成的推理依据增强机器人数据集,引导VLA模型学习对其动作进行推理。随后,使用推理增强的数据集通过ReFineVLA微调预训练的VLA模型,在保持底层泛化能力的同时提升推理能力。我们还通过注意力图可视化分析了ReFineVLA在视觉观测、语言提示和待执行动作之间的对齐关系,反映了模型聚焦相关任务和动作的能力。通过这一额外步骤,我们发现经ReFineVLA训练的模型在视觉-语言与动作领域之间展现出有意义的一致性,突显了增强的多模态理解和泛化能力。在SimplerEnv仿真平台上,针对WidowX和Google Robot任务的一系列操作基准测试中,ReFineVLA在WidowX基准和Google Robot任务上的成功率均优于次优方法,达到了最先进的性能水平。