StateVLM: A State-Aware Vision-Language Model for Robotic Affordance Reasoning<br>StateVLM：用于机器人可操作属性推理的状态感知视觉-语言模型<br>[摘要](abstracts/2605.03927.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型（VLMs）在各种机器人任务中展现了卓越的性能，因为它们能够感知视觉信息并理解自然语言指令。然而，在应用于机器人领域时，VLMs仍然受限于大型语言模型（LLMs）固有的一个根本缺陷：它们在数值推理方面存在困难，特别是在目标检测和目标状态定位中。为了探索将数值推理作为VLM中的回归任务，我们提出了一种新颖的训练策略，使VLM适配于目标检测和目标状态定位。该方法在微调期间利用边界框解码器输出计算辅助回归损失（ARL），同时在推理时保持标准序列预测。我们利用这一训练策略开发了StateVLM（状态感知视觉-语言模型），这是一种新颖的模型，旨在感知和学习细粒度的物体表示，包括物体及其状态的精确位置，以及可抓取区域。由于缺乏物体状态可操作属性推理的基准，我们引入了一个开源基准，即物体状态可操作属性推理（OSAR），它包含1,172个场景，涵盖7,746个独立物体及其对应的边界框。在适配的基准（RefCOCO、RefCOCO+和RefCOCOg）上的对比实验表明，与未使用ARL的模型相比，ARL使模型性能平均提升了1.6%。在OSAR基准上的实验进一步支持了这一发现，显示带有ARL的StateVLM比无ARL的模型平均性能高出5.2%。特别是，在OSAR中复杂的可操作属性推理任务中，ARL对于增强模型输出的一致性也至关重要。

← Back