VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models<br>VFIG：利用视觉语言模型将复杂图形矢量化至SVG格式<br>[摘要](abstracts/2603.24575.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

可缩放矢量图形（SVG）是技术插图和数字设计中的关键格式，具备精确的分辨率独立性和灵活的语义可编辑性。然而在实际应用中，原始矢量源文件常丢失或无法访问，仅留下难以修改或缩放的“扁平”栅格化版本（如PNG或JPEG）。手动重建这些图形是一项极其耗费人力的过程，需要专业知识以恢复原始几何意图。为弥合这一差距，我们提出了VFIG，这是一个专为复杂且高保真图形到SVG转换而训练的视觉语言模型系列。尽管该任务本质上是数据驱动的，但现有数据集通常规模较小，且缺乏专业图表的复杂性。为此，我们引入了VFIG-DATA，这是一个包含66K高质量图形-SVG配对的大规模数据集，通过混合真实世界论文图形和程序生成图表精心构建而成。考虑到SVG由重复的基本图元和分层局部结构组成，我们提出了一种从粗到精的训练课程：首先通过监督微调（SFT）学习原子图元，随后过渡到强化学习（RL）优化阶段，以提升全局图表保真度、布局一致性和拓扑边缘案例处理能力。最后，我们推出了VFIG-BENCH，这是一个包含新颖指标的综合评估套件，专门用于衡量复杂图形的结构完整性。VFIG在开源模型中实现了最先进的性能，并与GPT-5.2表现相当，在VFIG-BENCH上获得了0.829的VLM-Judge评分。

← Back