Abstract not available.
从自我中心视频中预测未来3D手部姿态序列对于理解人类意图以及实现增强现实/虚拟现实辅助、人机交互等具身应用至关重要。然而,这一任务极具挑战性,因为自我中心的手部运动由复杂的人类意图驱动,具有高度灵巧的关节结构,且因自我运动导致的剧烈视角变化而难以观测。本文提出EggHand——一种基于基础模型的自我中心手部姿态预测框架,将多模态语义推理与动态运动建模统一起来。该方法耦合了来自视觉-语言-动作(VLA)模型的动作解码器(用于捕捉手部运动的结构化时间动态)与自我中心视频-文本编码器(提供从大规模第一人称视频中学习的视角感知上下文信息)。这些组件共同克服了通用视觉编码器在自我运动下的脆弱性,实现了对运动、上下文和高层意图的联合推理——无需依赖身体姿态或外部追踪。在EgoExo4D数据集上的实验表明,EggHand在预测准确性上达到了新的最优水平,在剧烈自我运动下依然保持鲁棒性,并进一步支持通过基于语言的任务提示实现可控预测。项目页面:https://jyoun9.github.io/EggHand