ViHOI: Human-Object Interaction Synthesis with Visual Priors<br>ViHOI：基于视觉先验的人-物交互合成<br>[摘要](abstracts/2603.24383.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

生成真实且物理合理的三维人-物交互（HOI）仍然是运动生成领域的关键挑战。主要原因之一是仅用语言描述这些物理约束十分困难。为突破这一局限，我们提出一种新范式：从易于获取的二维图像中提取丰富的交互先验。具体而言，我们引入了ViHOI——一个创新框架，使基于扩散的生成模型能够利用二维图像中丰富、任务特定的先验知识来提升生成质量。我们采用大型视觉语言模型（VLM）作为强大的先验提取引擎，并通过分层解耦策略获取视觉与文本先验。同时，我们设计了一个基于Q-Former的适配器，将VLM的高维特征压缩为紧凑的先验令牌，这极大促进了扩散模型的条件训练。我们的框架在数据集中的运动渲染图像上进行训练，以确保视觉输入与运动序列之间严格的语义对齐。在推理阶段，它利用文本到图像生成模型合成的参考图像，以提升对未见过的物体和交互类别的泛化能力。实验结果表明，ViHOI实现了最先进的性能，在多个基准测试中超越现有方法，并展现出卓越的泛化性。

← Back