Kelix Technique Report<br>Kelix技术报告<br>[摘要](abstracts/2602.09843.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

自回归大型语言模型(LLMs)通过将多样化任务表达为离散自然语言标记序列,并采用下一标记预测进行训练,实现了良好的扩展性,从而在自监督下统一了理解与生成能力。将这一范式扩展至多模态数据,需要跨模态的共享离散表示。然而,大多数视觉语言模型(VLMs)仍依赖混合接口:离散文本标记与连续的视觉变换器(ViT)特征配对。由于监督主要基于文本驱动,这些模型往往偏向于理解任务,无法充分利用非文本数据的大规模自监督学习。近期研究探索了离散视觉标记化,以实现完全自回归的多模态建模,在统一理解与生成方面展现出有前景的进展。然而,现有离散视觉标记常因编码容量有限而丢失信息,导致其理解能力明显弱于基于连续特征的VLMs。本文提出Kelix,一种完全离散的自回归统一模型,它弥合了离散与连续视觉表示之间的理解差距。

← Back