More than the Sum: Panorama-Language Models for Adverse Omni-Scenes<br>超越简单叠加:面向全景恶劣场景的全景语言模型<br>[摘要](abstracts/2603.09573.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的视觉语言模型(VLMs)主要针对针孔图像设计,通过拼接多个窄视场输入来拼凑完整的全景场景理解。然而,这种多视角感知忽略了单一全景图像本身所固有的整体空间与上下文关联。本研究提出了全景语言建模(PLM)范式,这是一种统一的360°视觉语言推理方法,其能力超越了简单叠加针孔图像模型的总和。此外,我们推出了PanoVQA,一个大规模的全景视觉问答数据集,涵盖恶劣全景场景,支持在物体遮挡和驾驶事故等复杂情况下的全面推理。为奠定PLM的基础,我们开发了一种即插即用的全景稀疏注意力模块,使现有的基于针孔图像的VLMs能够无需重新训练即可处理等距柱面投影的全景图像。大量实验证明,我们的PLM在挑战性全景场景下实现了卓越的鲁棒性和整体推理能力,其理解力远超其窄视角部分的简单总和。项目页面:https://github.com/InSAI-Lab/PanoVQA。

← Back