Abstract not available.
在计算机视觉和数字时尚领域,实现逼真且高效的三维服装生成仍是一个长期存在的挑战。现有方法通常依赖大型视觉语言模型来生成二维缝纫图案的序列化表示,然后通过如GarmentCode等服装建模框架将其转换为可用于仿真的三维网格。尽管这些方法能产生高质量结果,但其推理时间往往较慢,通常需要30秒至一分钟。本文提出SwiftTailor,一种新颖的两阶段框架,通过紧凑的几何图像表示,将缝纫图案推理与基于几何的网格合成相统一。SwiftTailor包含两个轻量级模块:PatternMaker——一个从多样化输入模态中预测缝纫图案的高效视觉语言模型,以及GarmentSewer——一个将图案转换为新型服装几何图像的高效密集预测变换器,该图像在统一的UV空间中编码所有服装面板的三维表面。最终的三维网格通过高效的逆映射过程重建,该过程结合了重网格化和动态缝合算法,直接组装服装,从而分摊了物理仿真的成本。在Multimodal GarmentCodeData数据集上的大量实验表明,SwiftTailor在显著减少推理时间的同时,实现了最先进的精度和视觉保真度。这项工作为下一代三维服装生成提供了一个可扩展、可解释且高性能的解决方案。