Capturing Visual Environment Structure Correlates with Control Performance<br>捕捉视觉环境结构与控制性能的相关性<br>[摘要](abstracts/2602.04880.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉表示的选择是扩展通用机器人策略的关键。然而,即使是在仿真环境中,通过策略部署进行直接评估的成本也很高。现有的代理指标侧重于表示捕捉视觉世界狭窄方面的能力,如物体形状,这限制了跨环境的泛化能力。在本文中,我们采取分析视角:通过测量预训练视觉编码器从图像中解码环境状态(包括几何结构、物体结构和物理属性)的能力,来探究这些编码器。利用能够获取真实状态信息的仿真环境,我们证明了这种探究精度与跨不同环境和学习设置的下游策略性能高度相关,显著优于先前的指标,并实现了高效的表示选择。更广泛地说,我们的研究为支持可泛化操作的表示属性提供了见解,表明学习编码环境的潜在物理状态是实现控制的一个有前景的目标。

← Back