Abstract not available.
人-物交互检测是一个长期的计算机视觉问题,旨在预测人类与物体之间的交互行为。当前的人-物交互模型在训练和推理时依赖于固定的交互词汇表,这限制了其在动态环境中的适用性。随着多模态大语言模型的出现,探索更灵活的交互识别范式已成为可能。本研究通过多模态大语言模型的视角重新审视人-物交互检测,并将其应用于真实场景下的交互识别。我们定义了无约束人-物交互任务,这是一个新颖的人-物交互领域,在训练和推理阶段均无需预定义交互列表。我们评估了多种多模态大语言模型在此设定下的表现,并引入了一个包含测试时推理和语言到图转换的流程,以从自由格式文本中提取结构化交互信息。我们的研究结果突显了当前人-物交互检测器的局限性以及多模态大语言模型在无约束人-物交互任务中的价值。代码将在https://github.com/francescotonini/anyhoi公开。