SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition<br>SARE：面向免训练细粒度视觉识别的样本自适应推理框架<br>[摘要](abstracts/2603.17729.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（LVLMs）的最新进展已实现免训练的细粒度视觉识别（FGVR）。然而，由于下属类别固有的视觉模糊性，有效利用LVLMs进行FGVR仍面临挑战。现有方法主要采用检索导向或推理导向的范式应对此挑战，但两者均受限于两个基本缺陷：（1）它们对所有样本应用相同的推理流程，未考虑识别难度的不均衡性，导致准确性和效率均未达最优；（2）缺乏整合与复用错误特定经验的机制，导致在类似困难案例上反复失败。为解决这些局限，我们提出SARE，一种用于免训练FGVR的样本自适应推理框架。具体而言，SARE采用级联设计，将快速候选检索与细粒度推理相结合，仅在必要时调用后者。在推理过程中，SARE引入了一种自反思经验机制，利用过往失败案例在推理时提供可迁移的判别性指导，且无需任何参数更新。在14个数据集上的大量实验证实，SARE在显著降低计算开销的同时，实现了最先进的性能。

← Back