MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models<br>MHPR：面向大型视觉-语言模型的多维人类感知与推理基准<br>[摘要](abstracts/2605.03485.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多维人类理解对于电影分析和虚拟数字人等实际应用至关重要，然而当前的大型视觉-语言模型（LVLM）基准测试主要聚焦于单一任务场景，缺乏细粒度且以人为中心的评估。本文提出了MHPR，一个涵盖个体、多人及人-物交互维度的以人为中心场景的联合感知-推理综合基准。MHPR包含多层次数据设计——带标题的原始数据（C-RD）、监督微调数据（SFT-D）、强化学习数据（RL-D）和测试数据（T-D）——以及一个自动化的标题/VQA生成流水线（ACVG），该流水线通过类别级属性分解、属性特定改写和多模型投票确保高质量、可扩展的标注。我们在细粒度属性（外观、服装、姿态、部位）和高层语义（社会关系、动作语义、空间关系、意图与功能）上评估了最先进的视觉-语言模型。研究结果表明：1）格式对齐的SFT数据显著提升了指令遵循能力和稳定性；2）基于错误案例分析的挑战导向RL数据进一步增强了困难实例上的感知与推理能力；3）使用MHPR训练Qwen2.5-VL-7B取得了显著提升，与规模更大的模型性能几乎持平。我们公开了ACVG和MHPR，以促进以人为中心的感知与推理研究的可复现和可扩展发展。

← Back