Memory Over Maps: 3D Object Localization Without Reconstruction<br>记忆优于地图:无需重建的三维物体定位<br>[摘要](abstracts/2603.20530.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

目标定位是导航与操作等具身任务的前提条件。传统方法依赖于构建显式的三维场景表示(如点云、体素网格或场景图)来实现目标定位。尽管有效,这些流程需要大量的建图时间、存储开销,并存在可扩展性限制。视觉-语言模型的最新进展表明,丰富的语义推理可以直接在二维观测上进行,这引发了一个根本性问题:完整的二维场景重建对于物体定位是否必要?本研究重新审视物体定位问题,提出了一种无需地图的流程,仅存储带姿态的RGB-D关键帧作为轻量级视觉记忆,而无需构建任何全局三维场景表示。在查询时,我们的方法检索候选视角,利用视觉-语言模型对其进行重排序,并通过深度反投影与多视角融合构建查询目标的稀疏、按需三维估计。与基于重建的流程相比,该设计大幅降低了预处理成本,使场景索引的构建速度提升两个数量级以上,同时显著减少存储需求。我们进一步在下游物体目标导航任务中验证了定位目标的性能。尽管无需任务特定训练,我们的方法在多个基准测试中均表现出色,证明基于图像的场景记忆直接推理能够有效替代密集三维重建,实现以物体为中心的机器人导航。项目页面:https://ruizhou-cn.github.io/memory-over-maps/

← Back