Chain-of-Procedure: Hierarchical Visual-Language Reasoning for Procedural QA<br>程序链:面向程序性问答的分层视觉-语言推理<br>[摘要](abstracts/2605.14928.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来,视觉语言模型在标准图像-文本任务上取得了显著成果,但其在视觉程序问答方面的潜力仍鲜有探索。视觉程序问答面临独特挑战:用户通过上传复杂程序中间状态的图像来查询下一步操作。为系统评估视觉语言模型在此实际任务中的表现,我们提出ProcedureVQA——一个专为视觉程序推理设计的新型多模态基准。通过综合分析,我们发现当前视觉语言模型存在两个关键局限:给定视觉状态时结构化程序的跨模态检索不足,以及图像序列粒度与文本步骤分解之间的错位。针对这些问题,我们提出程序链——一种分层推理框架,首先利用视觉线索检索相关指令,然后通过语义分解进行步骤细化,最终生成下一步操作。在六个视觉语言模型上的实验表明,程序链的有效性显著,相较于标准基线实现了高达13%的绝对性能提升。

← Back