Abstract not available.
通用机器人的长期愿景依赖于其理解和执行自然语言指令的能力。视觉-语言-动作(VLA)模型在这一目标上取得了显著进展,但其生成的动作仍可能与给定指令存在偏差。本文研究了测试时验证作为缩小“意图-动作差距”的手段。我们首先描述了具身指令跟随的测试时扩展规律,并证明联合扩展重述指令的数量和生成动作的多样性,能显著提升测试时样本的多样性,通常比独立扩展每个维度更有效地恢复正确动作。为利用这些扩展规律,我们提出了CoVer——一种用于视觉-语言-动作对齐的对比验证器,并展示了其架构能随着计算资源和数据的增加而优雅扩展。接着,我们引入了“启动时计算”和分层验证推理流程用于VLA模型。在部署时,我们的框架通过视觉语言模型(VLM)预计算一组多样化的重述指令,为每条指令重复生成动作候选,然后使用验证器选择最优的高层提示和低层动作片段。与在相同数据上扩展策略预训练相比,我们的验证方法在SIMPLER基准测试中实现了22%的分布内增益和13%的分布外增益,并在真实世界实验中进一步提升了45%。在PolaRiS基准测试中,CoVer在任务进度上取得了14%的增益,成功率提升了9%。