Abstract not available.
以智能眼镜为代表的自我中心AI智能体依赖指向手势来消除自然语言指令中的指代歧义。然而,尽管多模态大语言模型(MLLMs)取得了显著进展,现有系统仍无法精确理解指向的空间语义,反而依赖视觉邻近性或物体显著性等虚假关联,我们将此现象称为“指代幻觉”。为填补这一空白,我们提出EgoPoint-Bench——一个综合性问答基准,专门用于评估和增强第一人称视角下的多模态指向推理能力。该基准包含超过11,000个高保真模拟与真实场景样本,覆盖五个评估维度和三个指代复杂度层级。大量实验表明,虽然当前最先进的专有和开源模型在处理第一人称指向时表现欠佳,但基于我们合成数据进行微调的模型不仅取得了显著的性能提升,还展现出稳健的仿真到真实环境的泛化能力。这项工作凸显了空间感知监督的重要性,为构建精准的自我中心AI助手提供了可扩展的技术路径。项目主页:https://guyyyug.github.io/EgoPoint-Bench/