Abstract not available.
随着大语言模型的持续发展,其推断人类心理状态并展现类人心智理论的能力日益受到关注。然而,现有心智理论评估大多聚焦于文本输入,而仅依赖视觉信息的场景则鲜少被探讨,这造成了研究空白,因为现实世界中的人机交互通常需要多模态理解。此外,当前许多方法将模型视为黑箱,很少探究其在多项选择问答任务中内部注意力的行为模式,且从可解释性角度出发,大语言模型幻觉对此类任务的影响也尚未充分探索。为解决这些问题,我们提出了VisionToM——一个面向视觉的干预框架,旨在强化任务感知推理。其核心思想是计算干预向量,将视觉表征与正确的语义目标对齐,从而通过不同层次的视觉特征引导模型的注意力。这种指导减少了模型对虚假语言先验的依赖,使多模态语言模型的输出更为可靠,并提升了问答性能。在EgoToM基准测试(一个以自我为中心、基于真实世界视频的心智理论数据集,包含三种多项选择问答设置)上的实验表明,我们的方法显著提升了多模态语言模型的心智理论能力。此外,在额外开放式生成任务中的结果显示,VisionToM使多模态语言模型能够生成更准确捕捉智能体心理状态的自由形式解释,推动了机器与人类协作向更高一致性迈进。