Abstract not available.
近年来,多模态大语言模型(MLLMs)在三维场景的空间推理方面展现出巨大潜力。然而,这些模型通常依赖于计算成本高昂的三维表征(如点云或重建的鸟瞰图),或缺乏物理基础来消除尺度与尺寸上的模糊性。本文通过引入与视频同步采集的惯性测量单元(IMU)自我运动模态数据,显著增强了MLLMs的能力。具体而言,我们提出了一种名为Motion-MLLM的新框架,其包含两个核心组件:(1)级联运动-视觉关键帧筛选模块,该模块综合利用IMU数据与视觉特征,高效选取一组稀疏但具代表性的关键帧;(2)非对称跨模态融合模块,其中运动令牌作为中介,将自我运动线索与跨帧视觉上下文注入视觉表征。通过将视觉内容锚定于物理自我运动轨迹,Motion-MLLM能够推理场景中的绝对尺度与空间关系。大量实验表明,Motion-MLLM在多种三维场景理解与空间推理任务上取得显著提升。与基于视频帧和显式三维数据的当前最优方法相比,Motion-MLLM在显著降低计算开销的同时(即成本效益分别提高1.40倍和1.63倍),实现了相当甚至更高的准确度。