CHOP: Counterfactual Human Preference Labels Improve Obstacle Avoidance in Visuomotor Navigation Policies<br>CHOP：利用反事实人类偏好标签提升视觉运动导航策略的避障能力<br>[摘要](abstracts/2603.02004.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉运动导航策略在具身智能体上展现出强大的感知-行动耦合能力，但在复杂现实环境中常面临安全导航与动态避障的挑战。本文提出CHOP方法，通过引入反事实人类偏好标签，使视觉运动导航策略与人类对安全性和避障的直觉认知保持一致。在CHOP框架中，针对每个视觉观测，机器人实际执行的轨迹将与一组反事实导航轨迹（即在相同条件下机器人可能采取的其他路径）共同呈现。人类标注者基于碰撞风险和路径效率等预期结果，对这些轨迹进行成对偏好标注。通过聚合这些偏好数据，对视觉运动导航策略进行微调，使其行为与人类导航偏好对齐。在SCAND数据集上的实验表明，相较于预训练基线模型，采用CHOP微调的视觉运动导航策略将临近碰撞事件减少49.7%，与人类偏好轨迹的偏离度降低45.0%，平均障碍物间距增加19.8%。这些改进在Ghost Robotics Vision60四足机器人的实际部署中得到验证：CHOP对齐策略使平均目标达成率提升24.4%，最小障碍物间距增加6.8%，碰撞与人工干预事件减少45.7%，标准化路径完成度平均提高38.6%。我们的研究结果凸显了反事实偏好监督在弥合大规模视觉运动策略与人类对齐、安全感知的具身导航之间鸿沟的重要价值。

← Back