Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision<br>多模态大语言模型理解指向吗？面向第一人称视角的指代推理基准构建与能力增强<br>[摘要](abstracts/2604.21461.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

以智能眼镜为代表的自我中心AI智能体依赖指向手势来消除自然语言指令中的指代歧义。然而，尽管多模态大语言模型(MLLMs)取得了显著进展，现有系统仍无法精确理解指向的空间语义，反而依赖视觉邻近性或物体显著性等虚假关联，我们将此现象称为“指代幻觉”。为填补这一空白，我们提出EgoPoint-Bench——一个综合性问答基准，专门用于评估和增强第一人称视角下的多模态指向推理能力。该基准包含超过11,000个高保真模拟与真实场景样本，覆盖五个评估维度和三个指代复杂度层级。大量实验表明，虽然当前最先进的专有和开源模型在处理第一人称指向时表现欠佳，但基于我们合成数据进行微调的模型不仅取得了显著的性能提升，还展现出稳健的仿真到真实环境的泛化能力。这项工作凸显了空间感知监督的重要性，为构建精准的自我中心AI助手提供了可扩展的技术路径。项目主页：https://guyyyug.github.io/EgoPoint-Bench/

← Back