PolarVLM: Bridging the Semantic-Physical Gap in Vision-Language Models<br>PolarVLM：弥合视觉语言模型中的语义-物理鸿沟<br>[摘要](abstracts/2605.07574.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

主流视觉语言模型（VLMs）因标准RGB输入的固有局限性，在处理反射和透明物体等严重光学歧义时存在根本性困难。虽然偏振成像捕获的偏振物理参数能够解决这些歧义，但现有方法受限于固定格式输出，且与开放式推理相隔离。为弥合这一语义-物理鸿沟，我们提出PolarVLM——首个将偏振物理参数集成到VLM中的多模态框架。通过采用双流架构和渐进式两阶段训练策略，PolarVLM在保持通用视觉能力的同时有效避免物理误解。作为架构的补充，我们构建了PolarVQA——首个面向偏振感知VQA的基准数据集，包含7.5万条面向反射和透明场景的物理基础指令调优配对样本。实验表明，PolarVLM在五项评估任务中整体超越RGB基线25.4%，在反射识别和玻璃计数任务上分别取得26.6%和34.0%的显著提升，成功实现了物理感知语义理解。

← Back