Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures<br>Hand2World：基于自由空间手势的自回归第一人称交互生成<br>[摘要](abstracts/2602.09600.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

第一人称交互世界模型对于增强现实和具身人工智能至关重要，其视觉生成需以低延迟、几何一致性和长期稳定性响应用户输入。本研究探讨基于单张场景图像和自由空间手势的第一人称交互生成，旨在合成逼真视频，其中手部进入场景、与物体交互，并在头部运动下引发合理的世界动态。该设定带来若干根本性挑战，包括自由空间手势与高接触训练数据间的分布偏移、单目视图中手部运动与相机运动的模糊性，以及任意长度视频生成的需求。我们提出Hand2World，一个统一的自回归框架，通过基于投影3D手部网格的遮挡不变手部条件化应对这些挑战，使可见性和遮挡可从场景上下文中推断，而非编码于控制信号中。为稳定第一人称视角变化，我们通过逐像素普吕克射线嵌入显式注入相机几何，解耦相机运动与手部运动，防止背景漂移。进一步开发了全自动单目标注流程，并将双向扩散模型蒸馏为因果生成器，实现任意长度合成。在三个第一人称交互基准测试上的实验表明，该方法在感知质量和3D一致性方面取得显著提升，同时支持相机控制和长时程交互生成。

← Back