EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting<br>EggHand：面向自我中心手部姿态预测的多模态基础模型<br>[摘要](abstracts/2605.07642.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

从自我中心视频中预测未来3D手部姿态序列对于理解人类意图以及实现增强现实/虚拟现实辅助、人机交互等具身应用至关重要。然而，这一任务极具挑战性，因为自我中心的手部运动由复杂的人类意图驱动，具有高度灵巧的关节结构，且因自我运动导致的剧烈视角变化而难以观测。本文提出EggHand——一种基于基础模型的自我中心手部姿态预测框架，将多模态语义推理与动态运动建模统一起来。该方法耦合了来自视觉-语言-动作（VLA）模型的动作解码器（用于捕捉手部运动的结构化时间动态）与自我中心视频-文本编码器（提供从大规模第一人称视频中学习的视角感知上下文信息）。这些组件共同克服了通用视觉编码器在自我运动下的脆弱性，实现了对运动、上下文和高层意图的联合推理——无需依赖身体姿态或外部追踪。在EgoExo4D数据集上的实验表明，EggHand在预测准确性上达到了新的最优水平，在剧烈自我运动下依然保持鲁棒性，并进一步支持通过基于语言的任务提示实现可控预测。项目页面：https://jyoun9.github.io/EggHand

← Back