Abstract not available.
视觉-语言模型(VLMs)在各种机器人任务中展现了卓越的性能,因为它们能够感知视觉信息并理解自然语言指令。然而,在应用于机器人领域时,VLMs仍然受限于大型语言模型(LLMs)固有的一个根本缺陷:它们在数值推理方面存在困难,特别是在目标检测和目标状态定位中。为了探索将数值推理作为VLM中的回归任务,我们提出了一种新颖的训练策略,使VLM适配于目标检测和目标状态定位。该方法在微调期间利用边界框解码器输出计算辅助回归损失(ARL),同时在推理时保持标准序列预测。我们利用这一训练策略开发了StateVLM(状态感知视觉-语言模型),这是一种新颖的模型,旨在感知和学习细粒度的物体表示,包括物体及其状态的精确位置,以及可抓取区域。由于缺乏物体状态可操作属性推理的基准,我们引入了一个开源基准,即物体状态可操作属性推理(OSAR),它包含1,172个场景,涵盖7,746个独立物体及其对应的边界框。在适配的基准(RefCOCO、RefCOCO+和RefCOCOg)上的对比实验表明,与未使用ARL的模型相比,ARL使模型性能平均提升了1.6%。在OSAR基准上的实验进一步支持了这一发现,显示带有ARL的StateVLM比无ARL的模型平均性能高出5.2%。特别是,在OSAR中复杂的可操作属性推理任务中,ARL对于增强模型输出的一致性也至关重要。