Abstract not available.
第一人称交互世界模型对于增强现实和具身人工智能至关重要,其视觉生成需以低延迟、几何一致性和长期稳定性响应用户输入。本研究探讨基于单张场景图像和自由空间手势的第一人称交互生成,旨在合成逼真视频,其中手部进入场景、与物体交互,并在头部运动下引发合理的世界动态。该设定带来若干根本性挑战,包括自由空间手势与高接触训练数据间的分布偏移、单目视图中手部运动与相机运动的模糊性,以及任意长度视频生成的需求。我们提出Hand2World,一个统一的自回归框架,通过基于投影3D手部网格的遮挡不变手部条件化应对这些挑战,使可见性和遮挡可从场景上下文中推断,而非编码于控制信号中。为稳定第一人称视角变化,我们通过逐像素普吕克射线嵌入显式注入相机几何,解耦相机运动与手部运动,防止背景漂移。进一步开发了全自动单目标注流程,并将双向扩散模型蒸馏为因果生成器,实现任意长度合成。在三个第一人称交互基准测试上的实验表明,该方法在感知质量和3D一致性方面取得显著提升,同时支持相机控制和长时程交互生成。