Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding<br>感知空间：面向高效精准三维场景理解的自我运动感知视频表征<br>[摘要](abstracts/2603.17980.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来，多模态大语言模型（MLLMs）在三维场景的空间推理方面展现出巨大潜力。然而，这些模型通常依赖于计算成本高昂的三维表征（如点云或重建的鸟瞰图），或缺乏物理基础来消除尺度与尺寸上的模糊性。本文通过引入与视频同步采集的惯性测量单元（IMU）自我运动模态数据，显著增强了MLLMs的能力。具体而言，我们提出了一种名为Motion-MLLM的新框架，其包含两个核心组件：（1）级联运动-视觉关键帧筛选模块，该模块综合利用IMU数据与视觉特征，高效选取一组稀疏但具代表性的关键帧；（2）非对称跨模态融合模块，其中运动令牌作为中介，将自我运动线索与跨帧视觉上下文注入视觉表征。通过将视觉内容锚定于物理自我运动轨迹，Motion-MLLM能够推理场景中的绝对尺度与空间关系。大量实验表明，Motion-MLLM在多种三维场景理解与空间推理任务上取得显著提升。与基于视频帧和显式三维数据的当前最优方法相比，Motion-MLLM在显著降低计算开销的同时（即成本效益分别提高1.40倍和1.63倍），实现了相当甚至更高的准确度。

← Back