HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token<br>HALP：无需生成任何词元即可检测视觉语言模型中的幻觉现象<br>[摘要](abstracts/2603.05465.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

幻觉问题一直是视觉语言模型（VLMs）面临的持续挑战，这些模型常常描述不存在的对象或捏造事实。现有的检测方法通常在文本生成后运行，导致干预成本高昂且时机滞后。本研究探讨了是否能在生成任何词元之前，通过单次前向传播探查模型的内部表示来预测幻觉风险。我们在一系列多样化的视觉语言任务及八种现代VLM（包括Llama-3.2-Vision、Gemma-3、Phi-4-VL和Qwen2.5-VL）中，检验了三类内部表示：（i）未进行多模态融合的纯视觉特征，（ii）文本解码器内的视觉词元表示，以及（iii）在生成前整合视觉与文本信息的查询词元表示。基于这些表示训练的探测器在不进行解码的情况下实现了强大的幻觉检测性能，在Gemma-3-12B、Phi-4-VL 5.6B和Molmo 7B模型上最高达到0.93的AUROC值。对于大多数模型，后期查询词元状态的预测性最强，而在少数架构中（例如Qwen2.5-VL-7B使用纯视觉特征时AUROC约为0.79），视觉或中间层特征占主导地位。这些结果表明：（1）幻觉风险可在生成前被检测到，（2）最具信息量的层和模态因架构而异，（3）轻量级探测器有望实现早期弃权、选择性路由和自适应解码，从而提升安全性与效率。

← Back