Direct Contact-Tolerant Motion Planning With Vision Language Models<br>基于视觉语言模型的直接接触容忍运动规划<br>[摘要](abstracts/2603.05017.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在杂乱环境中导航通常要求机器人能够容忍与可移动或可变形物体的接触，以维持导航效率。现有的接触容忍运动规划（CTMP）方法依赖于间接的空间表示（如预建地图、障碍物集合），导致精度不足且难以适应环境的不确定性。为解决这一问题，我们提出了一种直接接触容忍（DCT）规划器，它将视觉语言模型（VLMs）集成到直接点云感知与导航中，包含两个关键组件。首先是VLM点云分割器（VPP），它利用VLM在图像空间进行接触容忍推理，缓存推理掩码，通过里程计跨帧传播，并将其投影到当前扫描中以生成接触感知点云。第二个创新是VPP引导导航（VGN），它将CTMP建模为在直接接触感知点云约束下的感知到控制优化问题，并通过专门的深度神经网络（DNN）求解。我们在Isaac Sim仿真环境和真实类车机器人上实现了DCT，实验表明DCT在包含可移动障碍物的杂乱环境中实现了鲁棒且高效的导航，在多项指标上优于代表性基线方法。代码已开源：https://github.com/ChrisLeeUM/DCT。

← Back