VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models<br>VFIG:利用视觉语言模型将复杂图形矢量化至SVG格式<br>[摘要](abstracts/2603.24575.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

可缩放矢量图形(SVG)是技术插图和数字设计中的关键格式,具备精确的分辨率独立性和灵活的语义可编辑性。然而在实际应用中,原始矢量源文件常丢失或无法访问,仅留下难以修改或缩放的“扁平”栅格化版本(如PNG或JPEG)。手动重建这些图形是一项极其耗费人力的过程,需要专业知识以恢复原始几何意图。为弥合这一差距,我们提出了VFIG,这是一个专为复杂且高保真图形到SVG转换而训练的视觉语言模型系列。尽管该任务本质上是数据驱动的,但现有数据集通常规模较小,且缺乏专业图表的复杂性。为此,我们引入了VFIG-DATA,这是一个包含66K高质量图形-SVG配对的大规模数据集,通过混合真实世界论文图形和程序生成图表精心构建而成。考虑到SVG由重复的基本图元和分层局部结构组成,我们提出了一种从粗到精的训练课程:首先通过监督微调(SFT)学习原子图元,随后过渡到强化学习(RL)优化阶段,以提升全局图表保真度、布局一致性和拓扑边缘案例处理能力。最后,我们推出了VFIG-BENCH,这是一个包含新颖指标的综合评估套件,专门用于衡量复杂图形的结构完整性。VFIG在开源模型中实现了最先进的性能,并与GPT-5.2表现相当,在VFIG-BENCH上获得了0.829的VLM-Judge评分。

← Back