Universal Skeleton Understanding via Differentiable Rendering and MLLMs<br>基于可微分渲染与多模态大语言模型的通用骨架理解<br>[摘要](abstracts/2603.18003.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）展现出强大的视觉-语言推理能力，但仍受限于其原生模态，无法直接处理如人体骨架这类结构化、非视觉数据。现有方法要么将骨架动态压缩为有损特征向量以对齐文本，要么将动作量化为离散标记，但在异构骨架格式间泛化能力较差。我们提出SkeletonLLM，通过将任意骨架序列转换为MLLM的原生视觉模态，实现通用骨架理解。其核心是DrAction——一个可微分、格式无关的渲染器，可将骨骼运动学转化为紧凑的图像序列。由于该流程端到端可微分，MLLM的梯度可直接指导渲染过程，生成具有任务信息量的视觉标记。为进一步增强推理能力，我们引入协同训练策略：因果推理蒸馏从教师模型迁移结构化的逐步推理，而判别性微调则锐化易混淆动作间的决策边界。SkeletonLLM在识别、描述、推理及跨格式迁移等多种任务上表现出强大的泛化能力，为将MLLMs应用于非原生模态提供了可行路径。代码将在论文录用后开源。

← Back