VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model<br>VideoAfford:基于多模态大语言模型从人-物交互视频中实现三维功能可及性接地<br>[摘要](abstracts/2602.09638.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

三维功能可及性接地的目标在于突出三维物体上可操作区域,这对机器人操控至关重要。先前研究主要集中于从语言和图像等静态线索中学习可及性知识,难以提供足够的动态交互上下文以揭示时序与因果线索。为缓解此困境,我们收集了一个全面的基于视频的三维可及性数据集——VIDA,该数据集包含38K个人-物交互视频,涵盖16种可及性类型、38个物体类别以及22K个点云。基于VIDA,我们提出了一个强基线模型:VideoAfford,该模型通过增强可及性分割能力激活多模态大语言模型,在统一框架内同时实现世界知识推理与细粒度可及性接地。为提升动作理解能力,我们利用潜在动作编码器从人-物交互视频中提取动态交互先验。此外,我们引入了一种空间感知损失函数,使VideoAfford能够获取全面的三维空间知识。大量实验评估表明,我们的模型显著优于现有成熟方法,并展现出强大的开放世界泛化能力与可及性推理能力。所有数据集与代码将公开发布,以推动该领域的研究进展。

← Back