Towards Unconstrained Human-Object Interaction<br>迈向无约束的人-物交互检测<br>[摘要](abstracts/2604.14069.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

人-物交互检测是一个长期的计算机视觉问题，旨在预测人类与物体之间的交互行为。当前的人-物交互模型在训练和推理时依赖于固定的交互词汇表，这限制了其在动态环境中的适用性。随着多模态大语言模型的出现，探索更灵活的交互识别范式已成为可能。本研究通过多模态大语言模型的视角重新审视人-物交互检测，并将其应用于真实场景下的交互识别。我们定义了无约束人-物交互任务，这是一个新颖的人-物交互领域，在训练和推理阶段均无需预定义交互列表。我们评估了多种多模态大语言模型在此设定下的表现，并引入了一个包含测试时推理和语言到图转换的流程，以从自由格式文本中提取结构化交互信息。我们的研究结果突显了当前人-物交互检测器的局限性以及多模态大语言模型在无约束人-物交互任务中的价值。代码将在https://github.com/francescotonini/anyhoi公开。

← Back