Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models<br>Speech-Omni-Lite：面向视觉语言模型的便携式语音接口<br>[摘要](abstracts/2603.09627.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大规模全能模型已在多种模态中展现出卓越能力，但其优异性能严重依赖于海量多模态数据，并带来巨大的计算开销。本研究提出Speech-Omni-Lite，一种高效扩展预训练视觉语言（VL）骨干模型以具备语音理解与生成能力的框架，同时完全保留骨干模型的视觉语言性能。具体而言，该框架在完全冻结VL骨干模型的基础上，为其配备两个轻量级可训练的即插即用模块——语音投影器与语音标记生成器。为缓解语音问答语料稀缺问题，研究提出一种低成本数据构建策略，可从现有自动语音识别（ASR）的语音-文本对中生成“问题-文本答案-文本-语音”（QTATS）数据，从而有效支持语音生成训练。实验结果表明，即使仅使用数千小时的语音训练数据，Speech-Omni-Lite仍能实现优异的语音问答性能，其表现可与基于数百万小时语音数据训练的全能模型相媲美。此外，所学习的语音模块在不同VL骨干模型间展现出强大的可迁移性。

← Back