Abstract not available.
日常场景具有视觉丰富性的特点,要求多模态大语言模型(MLLMs)能够过滤噪声并识别决定性的视觉线索以进行准确推理。然而,当前的基准测试主要旨在评估MLLMs的已有知识或感知理解能力,往往忽视了关键的推理能力。为弥补这一差距,我们推出了DailyClue基准,专为日常场景中的视觉线索驱动推理而设计。我们的构建遵循两个核心原则:(1)严格基于真实的日常活动,(2)挑战性的查询设计,要求超越表面感知。我们的问题不仅限于简单识别,而是迫使MLLMs主动探索合适的视觉线索,并利用这些线索进行后续推理。为此,我们整理了一个涵盖四大日常领域和16个不同子任务的综合数据集。对MLLMs和代理模型的全面评估突显了我们的基准带来的巨大挑战。分析揭示了若干关键见解,强调准确识别视觉线索对于稳健推理至关重要。