Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios<br>寻解：评估多模态大语言模型在日常场景中基于视觉线索的推理能力<br>[摘要](abstracts/2604.14041.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

日常场景具有视觉丰富性的特点，要求多模态大语言模型（MLLMs）能够过滤噪声并识别决定性的视觉线索以进行准确推理。然而，当前的基准测试主要旨在评估MLLMs的已有知识或感知理解能力，往往忽视了关键的推理能力。为弥补这一差距，我们推出了DailyClue基准，专为日常场景中的视觉线索驱动推理而设计。我们的构建遵循两个核心原则：（1）严格基于真实的日常活动，（2）挑战性的查询设计，要求超越表面感知。我们的问题不仅限于简单识别，而是迫使MLLMs主动探索合适的视觉线索，并利用这些线索进行后续推理。为此，我们整理了一个涵盖四大日常领域和16个不同子任务的综合数据集。对MLLMs和代理模型的全面评估突显了我们的基准带来的巨大挑战。分析揭示了若干关键见解，强调准确识别视觉线索对于稳健推理至关重要。

← Back