Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation<br>他者中心感知器:通过框架实例化从他者视觉先验中解耦他者中心推理<br>[摘要](abstracts/2602.05789.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着视觉语言导航/动作等空间基础任务需求的日益增长,视觉语言模型(VLMs)中的他者中心感知能力正受到越来越多的关注。然而,在处理需要显式视角转换的他者中心空间查询时,VLMs仍显脆弱——这类查询的答案依赖于目标中心框架而非观察相机视角的推理。为此,我们提出了他者中心感知器,一种无需训练的策略:利用现成的几何专家从单张或多张图像中恢复度量三维状态,随后实例化一个与指令语义意图对齐的查询条件化他者中心参考框架。通过将重建的几何结构确定性地转换至目标框架,并以结构化、几何基础的表征提示骨干VLM,他者中心感知器将心理旋转从隐式推理卸载至显式计算。我们在多个空间推理基准上评估了不同骨干系列的他者中心感知器,观察到在他者中心任务上取得了一致且显著的提升(约10%),同时保持了强大的自我中心性能,并超越了经过空间感知微调的模型以及最先进的开源与专有模型。

← Back