Abstract not available.
我们提出了,据我们所知,首个基于手语驱动的视觉-语言-动作(VLA)框架,旨在实现直观且包容的人机交互。与传统方法依赖注释标注作为中间监督不同,该系统采用无需注释的范式,直接将视觉手语手势映射为语义指令。这一设计降低了标注成本,避免了注释表示带来的信息损失,从而实现了更自然和可扩展的多模态交互。在本工作中,我们专注于实时字母级别的手指拼写界面,为机器人控制提供了一个鲁棒且低延迟的通信通道。与大规模连续手语识别相比,字母级别交互在安全关键的具身环境中提供了更高的可靠性、可解释性和部署可行性。所提出的流程通过几何归一化、时间平滑和词汇精炼,将连续手势流转化为连贯的语言命令,确保了稳定且一致的交互。此外,该框架设计支持未来集成基于Transformer的无注释手语模型,以实现可扩展的单词级别和句子级别语义理解。实验结果表明,所提出的系统在多样化交互场景下,能够有效将手语衍生的指令转化为精确的机器人动作。这些结果突显了该框架在推动可访问、可扩展和多模态具身智能方面的潜力。