Abstract not available.
可靠的三维实例分割是语言驱动机器人操作的基础。其关键应用在于杂乱环境中,其中遮挡、有限视角和噪声掩码会降低感知性能。为应对这些挑战,我们提出了Clutt3R-Seg,一种用于杂乱场景中语言驱动抓取的零样本鲁棒三维实例分割流程。我们的核心思想是引入一个基于语义线索的层次化实例树。与先前试图优化噪声掩码的方法不同,我们的方法将其作为信息线索加以利用:通过跨视角分组和条件替换,该树结构抑制了过分割和欠分割,从而生成视角一致的掩码和鲁棒的三维实例。每个实例均通过开放词汇语义嵌入进行增强,使其能够根据自然语言指令准确选择目标。为处理多阶段任务中的场景变化,我们进一步引入了基于一致性的更新机制,仅需单次交互后图像即可保持实例对应关系,从而实现无需重新扫描的高效适应。Clutt3R-Seg在合成和真实数据集上进行了评估,并在真实机器人上得到验证。在所有设置中,其在杂乱和稀疏视角场景下均持续优于现有先进基线方法。即使在最具挑战性的重度杂乱序列中,Clutt3R-Seg的AP@25达到61.66,超过基线方法2.2倍以上;仅使用四个输入视角时,其性能超过使用八个视角的MaskClustering方法2倍以上。代码已开源:https://github.com/jeonghonoh/clutt3r-seg。