Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers<br>你的CLIP含有164个噪声维度:对比预训练视觉-语言Transformer的嵌入协方差特征谱探索<br>[摘要](abstracts/2605.14893.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

对比预训练的视觉-语言模型(VLM)作为强大的特征提取器,但其共享潜在空间易出现结构异常,并成为非语义多模态噪声的存储库。为解释这一现象,我们采用协方差矩阵的谱分解方法,将VLM潜在空间分解为多模态语义信号成分和共享噪声子空间。我们观察到这种噪声几何结构在不同数据子集间表现出强子群不变性。关键在于,修剪这些共享噪声维度主要是无害的,能保持甚至主动提升下游任务性能。通过从伪影噪声中分离出真实语义信号,本研究为现代VLM的表征结构提供了新的机制性见解,表明其潜在几何结构的很大一部分由共享的架构层面噪声主导,而非仅由任务相关语义驱动。

← Back