From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models<br>从注意力头到神经元：多任务视觉语言模型中的因果归因与调控<br>[摘要](abstracts/2604.17941.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期研究日益关注视觉语言模型（VLMs）的神经元级解释，以识别对最终预测至关重要的神经元。然而，现有神经元分析通常聚焦于单一任务，限制了跨任务神经元重要性的可比性。此外，现有排序策略倾向于孤立地评估神经元，忽视了任务依赖的信息通路如何塑造前馈网络（FFN）神经元的写入效应。这种疏漏可能加剧多任务场景下神经元的歧义性，为关键神经元的识别与干预引入噪声。本研究提出HONES（面向注意力头的神经元解释与调控框架），一种无需梯度的多任务VLM任务感知神经元归因与调控方法。HONES通过评估神经元在任务相关注意力头条件下的因果写入贡献进行排序，并进一步通过轻量级缩放调控显著神经元。在四个多样化多模态任务和两种主流VLM上的实验表明，HONES在识别任务关键神经元方面优于现有方法，且调控后能提升模型性能。源代码已发布于：https://github.com/petergit1/HONES。

← Back