Delving into Spectral Clustering with Vision-Language Representations<br>探索基于视觉-语言表征的光谱聚类方法<br>[摘要](abstracts/2602.09586.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

光谱聚类是无监督数据分析中的一项强大技术。现有方法大多依赖单一模态，未能充分利用多模态表征中的丰富信息。受近期视觉-语言预训练成功的启发，本文将光谱聚类的研究范畴从单模态拓展至多模态领域。具体而言，我们提出神经正切核光谱聚类方法，该方法利用预训练视觉-语言模型中的跨模态对齐特性。通过以语义接近目标图像的积极名词作为神经正切核的锚点，我们将图像间的亲和度定义为视觉邻近性与语义重叠度的耦合。研究表明，该公式能增强簇内连接，同时抑制簇间的虚假关联，从而促进块对角结构的形成。此外，我们提出一种正则化亲和度扩散机制，可自适应地融合由不同提示词生成的亲和度矩阵。在涵盖经典数据集、大规模数据集、细粒度数据集及域偏移数据集的16个基准测试上的大量实验表明，本方法始终以显著优势超越现有最优技术。

← Back