SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation<br>SignVLA：一种无需注释的视觉-语言-动作框架，用于实时手语引导的机器人操作<br>[摘要](abstracts/2602.22514.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了，据我们所知，首个基于手语驱动的视觉-语言-动作（VLA）框架，旨在实现直观且包容的人机交互。与传统方法依赖注释标注作为中间监督不同，该系统采用无需注释的范式，直接将视觉手语手势映射为语义指令。这一设计降低了标注成本，避免了注释表示带来的信息损失，从而实现了更自然和可扩展的多模态交互。在本工作中，我们专注于实时字母级别的手指拼写界面，为机器人控制提供了一个鲁棒且低延迟的通信通道。与大规模连续手语识别相比，字母级别交互在安全关键的具身环境中提供了更高的可靠性、可解释性和部署可行性。所提出的流程通过几何归一化、时间平滑和词汇精炼，将连续手势流转化为连贯的语言命令，确保了稳定且一致的交互。此外，该框架设计支持未来集成基于Transformer的无注释手语模型，以实现可扩展的单词级别和句子级别语义理解。实验结果表明，所提出的系统在多样化交互场景下，能够有效将手语衍生的指令转化为精确的机器人动作。这些结果突显了该框架在推动可访问、可扩展和多模态具身智能方面的潜力。

← Back