Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes<br>Clutt3R-Seg：面向杂乱场景中语言驱动抓取的稀疏视角三维实例分割<br>[摘要](abstracts/2602.11660.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

可靠的三维实例分割是语言驱动机器人操作的基础。其关键应用在于杂乱环境中，其中遮挡、有限视角和噪声掩码会降低感知性能。为应对这些挑战，我们提出了Clutt3R-Seg，一种用于杂乱场景中语言驱动抓取的零样本鲁棒三维实例分割流程。我们的核心思想是引入一个基于语义线索的层次化实例树。与先前试图优化噪声掩码的方法不同，我们的方法将其作为信息线索加以利用：通过跨视角分组和条件替换，该树结构抑制了过分割和欠分割，从而生成视角一致的掩码和鲁棒的三维实例。每个实例均通过开放词汇语义嵌入进行增强，使其能够根据自然语言指令准确选择目标。为处理多阶段任务中的场景变化，我们进一步引入了基于一致性的更新机制，仅需单次交互后图像即可保持实例对应关系，从而实现无需重新扫描的高效适应。Clutt3R-Seg在合成和真实数据集上进行了评估，并在真实机器人上得到验证。在所有设置中，其在杂乱和稀疏视角场景下均持续优于现有先进基线方法。即使在最具挑战性的重度杂乱序列中，Clutt3R-Seg的AP@25达到61.66，超过基线方法2.2倍以上；仅使用四个输入视角时，其性能超过使用八个视角的MaskClustering方法2倍以上。代码已开源：https://github.com/jeonghonoh/clutt3r-seg。

← Back