Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models<br>Speech-Omni-Lite:面向视觉语言模型的便携式语音接口<br>[摘要](abstracts/2603.09627.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大规模全能模型已在多种模态中展现出卓越能力,但其优异性能严重依赖于海量多模态数据,并带来巨大的计算开销。本研究提出Speech-Omni-Lite,一种高效扩展预训练视觉语言(VL)骨干模型以具备语音理解与生成能力的框架,同时完全保留骨干模型的视觉语言性能。具体而言,该框架在完全冻结VL骨干模型的基础上,为其配备两个轻量级可训练的即插即用模块——语音投影器与语音标记生成器。为缓解语音问答语料稀缺问题,研究提出一种低成本数据构建策略,可从现有自动语音识别(ASR)的语音-文本对中生成“问题-文本答案-文本-语音”(QTATS)数据,从而有效支持语音生成训练。实验结果表明,即使仅使用数千小时的语音训练数据,Speech-Omni-Lite仍能实现优异的语音问答性能,其表现可与基于数百万小时语音数据训练的全能模型相媲美。此外,所学习的语音模块在不同VL骨干模型间展现出强大的可迁移性。

← Back