DAGverse: Building Document-Grounded Semantic DAGs from Scientific Papers<br>DAGverse:从科学论文构建基于文档的语义有向无环图<br>[摘要](abstracts/2603.25293.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

有向无环图(DAG)在科学与技术领域被广泛用于表示结构化知识。然而,真实世界DAG的数据集仍然稀缺,因为构建它们通常需要专家对领域文档进行解读。我们研究了Doc2SemDAG构建问题:从文档中恢复出首选的语义DAG,并附带解释它的引用证据和上下文。这一挑战在于文档可能允许多种合理的抽象,预期结构通常隐含,且支持证据分散在文本、公式、图注和图表中。为应对这些挑战,我们利用包含显式DAG图表的科学论文作为自然的监督来源。在此设定下,DAG图表提供结构,而伴随文本提供上下文和解释。我们提出了DAGverse,一个从在线科学论文构建基于文档的语义DAG的框架。其核心组件DAGverse-Pipeline是一个半自动系统,通过图表分类、图重构、语义锚定和验证来生成高精度语义DAG示例。作为案例研究,我们测试了该框架在因果DAG上的应用,并发布了DAGverse-1数据集,包含108个经专家验证的语义DAG,具备图级、节点级和边级证据。实验表明,DAGverse-Pipeline在DAG分类与标注任务上优于现有的视觉-语言模型。DAGverse为基于文档的DAG基准测试奠定了基础,并为研究基于真实世界证据的结构化推理开辟了新方向。

← Back