PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models<br>PRISM：面向具身视觉语言模型的多视角多能力零售视频数据集<br>[摘要](abstracts/2603.29281.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前最先进的物理AI模型在通用视觉理解能力与结构化现实部署环境的专业化感知需求之间存在显著差距。本文提出PRISM——一个包含27万样本的多视角视频监督微调（SFT）语料库，专为现实零售环境中的具身视觉语言模型（VLMs）设计。PRISM的构建基于一个简单观察：物理AI系统的失败并非源于视觉识别能力不足，而是由于对空间、物理动态及具身行动的理解不够深入，导致无法在现实世界中可靠运作。为此，PRISM以新颖的三维知识本体为基础，涵盖空间知识、时间与物理知识以及具身行动知识。该数据集覆盖四大评估维度下的20余项能力探测任务，包括具身推理（ER）、常识（CS）、空间感知（SP）和直觉物理（IP）。据我们所知，PRISM是首个在单一现实部署领域内同时实现这三个知识维度的数据集。语料库采集自五个超市场景，包含第一人称、第三人称及360°全景视角的视频数据，并提供开放式、思维链及多项选择题形式的监督标注。以每秒4帧计算，PRISM共包含约1180万视频帧和约7.3亿文本标记，使其成为规模最大的领域专用视频SFT语料库之一。在PRISM上进行微调后，模型在全部20余项探测任务上的错误率比预训练基线降低了66.6%，其中具身行动理解任务的准确率显著提升36.4%。我们的结果表明，基于本体结构化的领域专用SFT能够有效增强具身VLMs在现实场景中的性能。PRISM数据集及更多细节详见：https://dreamvu.ai/prism

← Back