Abstract not available.
多模态大语言模型(MLLMs)在连接视觉与语言方面取得了显著进展,但在空间理解和视角感知推理方面仍面临挑战。近期研究侧重于通过几何线索增强输入表示,而非明确教导模型进行三维空间推理。我们提出了Loc3R-VLM框架,该框架赋予二维视觉语言模型从单目视频输入中获取高级三维理解能力。受人类空间认知启发,Loc3R-VLM依赖两个联合目标:全局布局重建以构建场景结构的整体表示,以及显式情境建模以锚定自我中心视角。这些目标提供了直接的空间监督,将感知和语言均置于三维上下文中。为确保几何一致性和度量尺度对齐,我们利用从预训练三维基础模型中提取的轻量级相机姿态先验。Loc3R-VLM在基于语言的定位任务中实现了最先进的性能,并在情境化和通用三维问答基准测试中超越了现有的二维及视频方法,证明了我们的空间监督框架能够实现强大的三维理解能力。项目页面:https://kevinqu7.github.io/loc3r-vlm