ClickAIXR: On-Device Multimodal Vision-Language Interaction with Real-World Objects in Extended Reality<br>ClickAIXR：基于设备的多模态视觉-语言交互在扩展现实中与现实世界物体的应用<br>[摘要](abstracts/2604.04905.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了ClickAIXR，一种新颖的基于设备的多模态视觉-语言交互框架，用于在扩展现实（XR）中与物体进行交互。与先前依赖云端人工智能（如ChatGPT）或基于注视的选择（如GazePointAR）的系统不同，ClickAIXR将基于设备的视觉-语言模型（VLM）与控制器驱动的物体选择范式相结合，使用户能够在XR中精确点击现实世界中的物体。一旦选中，物体图像将由VLM在本地处理，通过文本和语音回答自然语言问题。这种以物体为中心的交互减少了仅依赖注视或语音界面固有的模糊性，并通过在设备上执行所有推理来提高透明度，解决了隐私和延迟方面的担忧。我们在Magic Leap SDK（C API）中实现了ClickAIXR，并采用基于ONNX的本地VLM推理。我们进行了一项用户研究，将ClickAIXR与Gemini 2.5 Flash和ChatGPT 5进行比较，评估了可用性、信任度和用户满意度。结果显示，延迟适中，用户体验可接受。我们的研究结果表明，基于点击的物体选择与设备端人工智能相结合，具有推动可信赖、保护隐私的XR交互的潜力。源代码和补充材料可在以下网址获取：nanovis.org/ClickAIXR.html

← Back