Mario: Multimodal Graph Reasoning with Large Language Models<br>Mario:基于大语言模型的多模态图推理<br>[摘要](abstracts/2603.05181.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大语言模型(LLMs)的最新进展为多模态推理开辟了新途径。然而,现有方法大多仍依赖预训练的视觉-语言模型(VLMs)单独编码图像-文本对,忽略了现实世界多模态数据天然形成的关系结构。这促使我们在多模态图(MMGs)上进行推理,其中每个节点具有文本和视觉属性,边则提供结构线索。在保持图拓扑的同时,基于LLM对此类异构多模态信号进行推理,带来了两个关键挑战:解决弱跨模态一致性及处理异构模态偏好。为此,我们提出Mario,一个统一框架,能同时应对上述两个挑战,并实现基于LLM的MMG高效推理。Mario包含两个创新阶段:首先,采用图条件化的VLM设计,通过图拓扑引导的细粒度跨模态对比学习,联合优化文本与视觉特征;其次,引入模态自适应的图指令调优机制,将对齐的多模态特征组织为图感知的指令视图,并利用可学习路由器为每个节点及其邻域,向LLM呈现最具信息量的模态配置。在多个MMG基准测试上的广泛实验表明,Mario在节点分类和链接预测的有监督及零样本场景中,均持续优于最先进的图模型。代码将在https://github.com/sunyuanfu/Mario公开。

← Back