Kelix Technique Report<br>Kelix技术报告<br>[摘要](abstracts/2602.09843.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

自回归大型语言模型（LLMs）通过将多样化任务表达为离散自然语言标记序列，并采用下一标记预测进行训练，实现了良好的扩展性，从而在自监督下统一了理解与生成能力。将这一范式扩展至多模态数据，需要跨模态的共享离散表示。然而，大多数视觉语言模型（VLMs）仍依赖混合接口：离散文本标记与连续的视觉变换器（ViT）特征配对。由于监督主要基于文本驱动，这些模型往往偏向于理解任务，无法充分利用非文本数据的大规模自监督学习。近期研究探索了离散视觉标记化，以实现完全自回归的多模态建模，在统一理解与生成方面展现出有前景的进展。然而，现有离散视觉标记常因编码容量有限而丢失信息，导致其理解能力明显弱于基于连续特征的VLMs。本文提出Kelix，一种完全离散的自回归统一模型，它弥合了离散与连续视觉表示之间的理解差距。

← Back