Mario: Multimodal Graph Reasoning with Large Language Models<br>Mario：基于大语言模型的多模态图推理<br>[摘要](abstracts/2603.05181.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大语言模型（LLMs）的最新进展为多模态推理开辟了新途径。然而，现有方法大多仍依赖预训练的视觉-语言模型（VLMs）单独编码图像-文本对，忽略了现实世界多模态数据天然形成的关系结构。这促使我们在多模态图（MMGs）上进行推理，其中每个节点具有文本和视觉属性，边则提供结构线索。在保持图拓扑的同时，基于LLM对此类异构多模态信号进行推理，带来了两个关键挑战：解决弱跨模态一致性及处理异构模态偏好。为此，我们提出Mario，一个统一框架，能同时应对上述两个挑战，并实现基于LLM的MMG高效推理。Mario包含两个创新阶段：首先，采用图条件化的VLM设计，通过图拓扑引导的细粒度跨模态对比学习，联合优化文本与视觉特征；其次，引入模态自适应的图指令调优机制，将对齐的多模态特征组织为图感知的指令视图，并利用可学习路由器为每个节点及其邻域，向LLM呈现最具信息量的模态配置。在多个MMG基准测试上的广泛实验表明，Mario在节点分类和链接预测的有监督及零样本场景中，均持续优于最先进的图模型。代码将在https://github.com/sunyuanfu/Mario公开。

← Back