Abstract not available.
由于层依赖的对比度微妙、标注数据有限以及不同实验室和成像设置间的显著差异,从光学显微镜图像中表征二维量子材料具有挑战性。现有视觉模型因缺乏物理先验知识,且无法泛化至新材料或硬件条件,在此领域表现不佳。本研究提出了一种新的物理感知多模态框架,从数据和模型两方面应对这些限制。我们首先介绍了Synthia,一种基于物理的合成数据生成器,可模拟量子材料薄片在薄膜干涉下的真实光学响应。Synthia生成多样且高质量的样本,有助于减少对专家手动标注的依赖。我们引入了QMat-Instruct,这是首个针对量子材料的大规模指令数据集,包含多模态、物理信息化的问答对,旨在教导多模态大语言模型理解薄片的外观和厚度。随后,我们提出了物理感知指令调优方法QuPAINT,这是一种多模态架构,通过物理信息注意力模块融合视觉嵌入与光学先验,从而实现更鲁棒和更具区分性的薄片表征。最后,我们建立了QF-Bench,一个涵盖多种材料、基底和成像设置的综合性基准,为公平且可复现的评估提供了标准化协议。