Memory Over Maps: 3D Object Localization Without Reconstruction<br>记忆优于地图：无需重建的三维物体定位<br>[摘要](abstracts/2603.20530.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

目标定位是导航与操作等具身任务的前提条件。传统方法依赖于构建显式的三维场景表示（如点云、体素网格或场景图）来实现目标定位。尽管有效，这些流程需要大量的建图时间、存储开销，并存在可扩展性限制。视觉-语言模型的最新进展表明，丰富的语义推理可以直接在二维观测上进行，这引发了一个根本性问题：完整的二维场景重建对于物体定位是否必要？本研究重新审视物体定位问题，提出了一种无需地图的流程，仅存储带姿态的RGB-D关键帧作为轻量级视觉记忆，而无需构建任何全局三维场景表示。在查询时，我们的方法检索候选视角，利用视觉-语言模型对其进行重排序，并通过深度反投影与多视角融合构建查询目标的稀疏、按需三维估计。与基于重建的流程相比，该设计大幅降低了预处理成本，使场景索引的构建速度提升两个数量级以上，同时显著减少存储需求。我们进一步在下游物体目标导航任务中验证了定位目标的性能。尽管无需任务特定训练，我们的方法在多个基准测试中均表现出色，证明基于图像的场景记忆直接推理能够有效替代密集三维重建，实现以物体为中心的机器人导航。项目页面：https://ruizhou-cn.github.io/memory-over-maps/

← Back