E3VS-Bench: A Benchmark for Viewpoint-Dependent Active Perception in 3D Gaussian Splatting Scenes<br>E3VS-Bench:面向3D高斯泼溅场景中视角依赖主动感知的基准测试<br>[摘要](abstracts/2604.17969.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在三维环境中的视觉搜索要求具身智能体主动探索周围环境并收集任务相关证据。然而,现有的视觉搜索与具身人工智能基准(如EQA)通常依赖于静态观测或受限的自我中心运动,未能明确评估真实世界三维环境中无约束五自由度视角控制下产生的细粒度视角依赖现象,例如由垂直视角移动引起的可见性变化、揭示容器内部内容,以及仅能从特定角度观察才能区分的物体属性。为弥补这一不足,我们提出了{E3VS-Bench}——一个面向具身三维视觉搜索的基准测试,要求智能体通过五自由度视角控制来收集视角依赖证据以回答问题。E3VS-Bench包含99个使用3D高斯泼溅技术重建的高保真三维场景和2,014个问题驱动的任务片段。3D高斯泼溅技术实现了逼真的自由视角渲染,保留了基于网格的模拟器中常被弱化的细粒度视觉细节(如小文本和细微属性),从而能够构建无法通过单一视角回答、而需在五自由度下跨视角主动检视的问题。我们评估了多种先进视觉语言模型,并将其性能与人类表现进行对比。尽管这些模型具备强大的二维推理能力,但所有模型均与人类表现存在显著差距,突显了在完整五自由度视角变化下主动感知与连贯视角规划方面的局限性。

← Back