From Perception to Action: An Interactive Benchmark for Vision Reasoning<br>从感知到行动：视觉推理的交互式基准测试<br>[摘要](abstracts/2602.21015.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

理解物理结构对于具身智能体、交互式设计和长时程操作等现实应用至关重要。然而，当前主流的视觉语言模型评估仍集中于结构无关的单轮设置（如视觉问答），无法评估智能体在动态环境中推理几何、接触和支撑关系如何共同约束可行行动的能力。为填补这一空白，我们引入了因果行动与交互层次基准，这是一个交互式、基于物理的3D测试平台，旨在评估模型能否理解、规划并执行基于物理约束的结构化行动序列。该基准将评估从被动感知转向主动问题解决，涵盖互锁机械拼图和三维堆叠与装箱等任务。我们在统一的交互设置下对前沿视觉语言模型和扩散模型进行了全面研究。结果表明，表现最佳的模型仍难以内化物理结构和因果约束，常无法生成可靠的长时程计划，且无法稳健地将感知结构转化为有效行动。项目网址：https://social-ai-studio.github.io/CHAIN/。

← Back