MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models<br>MHPR:面向大型视觉-语言模型的多维人类感知与推理基准<br>[摘要](abstracts/2605.03485.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多维人类理解对于电影分析和虚拟数字人等实际应用至关重要,然而当前的大型视觉-语言模型(LVLM)基准测试主要聚焦于单一任务场景,缺乏细粒度且以人为中心的评估。本文提出了MHPR,一个涵盖个体、多人及人-物交互维度的以人为中心场景的联合感知-推理综合基准。MHPR包含多层次数据设计——带标题的原始数据(C-RD)、监督微调数据(SFT-D)、强化学习数据(RL-D)和测试数据(T-D)——以及一个自动化的标题/VQA生成流水线(ACVG),该流水线通过类别级属性分解、属性特定改写和多模型投票确保高质量、可扩展的标注。我们在细粒度属性(外观、服装、姿态、部位)和高层语义(社会关系、动作语义、空间关系、意图与功能)上评估了最先进的视觉-语言模型。研究结果表明:1)格式对齐的SFT数据显著提升了指令遵循能力和稳定性;2)基于错误案例分析的挑战导向RL数据进一步增强了困难实例上的感知与推理能力;3)使用MHPR训练Qwen2.5-VL-7B取得了显著提升,与规模更大的模型性能几乎持平。我们公开了ACVG和MHPR,以促进以人为中心的感知与推理研究的可复现和可扩展发展。

← Back