SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition<br>SARE:面向免训练细粒度视觉识别的样本自适应推理框架<br>[摘要](abstracts/2603.17729.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)的最新进展已实现免训练的细粒度视觉识别(FGVR)。然而,由于下属类别固有的视觉模糊性,有效利用LVLMs进行FGVR仍面临挑战。现有方法主要采用检索导向或推理导向的范式应对此挑战,但两者均受限于两个基本缺陷:(1)它们对所有样本应用相同的推理流程,未考虑识别难度的不均衡性,导致准确性和效率均未达最优;(2)缺乏整合与复用错误特定经验的机制,导致在类似困难案例上反复失败。为解决这些局限,我们提出SARE,一种用于免训练FGVR的样本自适应推理框架。具体而言,SARE采用级联设计,将快速候选检索与细粒度推理相结合,仅在必要时调用后者。在推理过程中,SARE引入了一种自反思经验机制,利用过往失败案例在推理时提供可迁移的判别性指导,且无需任何参数更新。在14个数据集上的大量实验证实,SARE在显著降低计算开销的同时,实现了最先进的性能。

← Back