When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering<br>何时执行、询问或学习：不确定性感知的策略引导<br>[摘要](abstracts/2602.22474.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

策略引导是一种新兴的部署时机器人行为适应方法：通过学习验证器分析预训练策略（如扩散策略）提出的低层动作样本，并仅选择与任务对齐的动作。尽管视觉语言模型（VLM）因其推理能力被视为有前景的通用验证器，但现有框架常假设这些模型校准良好。实际上，VLM的过度自信判断会在任务规范的高层语义不确定性以及预训练策略的低层动作不确定性或能力不足时，降低引导性能。我们提出不确定性感知策略引导（UPS），这是一个联合推理语义任务不确定性和低层动作可行性的框架，并选择不确定性解决策略：执行高置信度动作、通过自然语言查询澄清任务歧义，或在预训练策略被认为无法胜任任务时请求动作干预以纠正低层策略。我们利用共形预测来校准VLM与预训练基础策略的组合，为验证器选择正确策略提供统计保证。在部署期间收集干预后，我们采用残差学习来提升预训练策略的能力，使系统能够持续学习，同时最小化昂贵的人工反馈。我们通过仿真和硬件实验展示了该框架，表明UPS能够区分自信、模糊和无法胜任的场景，并与未校准的基线及先前基于人或机器人门控的持续学习方法相比，最小化了昂贵的用户干预。视频可在 https://jessie-yuan.github.io/ups/ 查看。

← Back