SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes<br>SceneTeract：三维场景中的智能体功能可供性与视觉语言模型接地验证<br>[摘要](abstracts/2603.29798.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

具身人工智能依赖于支持多样化用户进行有意义活动的交互式三维环境，然而评估其功能可供性仍是一个核心挑战。我们提出SceneTeract框架，用于验证特定智能体约束下的三维场景功能。其核心贡献是一个耦合高层语义推理与低层几何校验的接地验证引擎。SceneTeract将复杂活动分解为原子动作序列，并依据具身智能体配置文件，通过显式物理与几何模拟，验证每个步骤对可达性、净空高度、可通行性等可访问性要求的满足情况。我们运用SceneTeract对以下两方面展开深度评估：（一）合成室内环境，揭示阻碍基础交互的常见功能缺陷；（二）前沿视觉语言模型推理与预测功能可供性的能力，发现即使当前最强模型仍存在语义置信度与物理可行性间的系统性错配。最后，我们将SceneTeract作为视觉语言模型后训练的奖励引擎，实现几何约束向推理模型的可扩展蒸馏。我们开源SceneTeract验证套件与数据集，以弥合具身三维场景理解中感知与物理现实间的鸿沟。

← Back