ViHOI: Human-Object Interaction Synthesis with Visual Priors<br>ViHOI:基于视觉先验的人-物交互合成<br>[摘要](abstracts/2603.24383.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

生成真实且物理合理的三维人-物交互(HOI)仍然是运动生成领域的关键挑战。主要原因之一是仅用语言描述这些物理约束十分困难。为突破这一局限,我们提出一种新范式:从易于获取的二维图像中提取丰富的交互先验。具体而言,我们引入了ViHOI——一个创新框架,使基于扩散的生成模型能够利用二维图像中丰富、任务特定的先验知识来提升生成质量。我们采用大型视觉语言模型(VLM)作为强大的先验提取引擎,并通过分层解耦策略获取视觉与文本先验。同时,我们设计了一个基于Q-Former的适配器,将VLM的高维特征压缩为紧凑的先验令牌,这极大促进了扩散模型的条件训练。我们的框架在数据集中的运动渲染图像上进行训练,以确保视觉输入与运动序列之间严格的语义对齐。在推理阶段,它利用文本到图像生成模型合成的参考图像,以提升对未见过的物体和交互类别的泛化能力。实验结果表明,ViHOI实现了最先进的性能,在多个基准测试中超越现有方法,并展现出卓越的泛化性。

← Back