Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data<br>行动、感知、再行动：从大规模第一人称人类数据中学习非马尔可夫主动感知策略<br>[摘要](abstracts/2602.04600.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在无约束环境中实现泛化性操作要求机器人能够主动解决信息不确定性，即具备主动感知能力。然而，现有方法通常局限于有限的感知行为类型，限制了其在复杂环境中的适用性。本研究将主动感知形式化为一个由信息增益和决策分支驱动的非马尔可夫过程，并提出了视觉主动感知范式的结构化分类。基于这一视角，我们提出了CoMe-VLA框架——一种融合认知与记忆的视觉-语言-动作框架，该框架利用大规模人类第一人称数据来学习多功能的探索与操作先验。我们的框架集成了一个用于自主子任务转换的认知辅助头模块，以及一个通过融合本体感觉与视觉时序上下文来维持自我与环境一致感知的双轨记忆系统。通过将人类与机器人的手眼协调行为对齐到统一的第一人称动作空间中，我们分三个阶段逐步训练模型。在轮式人形机器人上进行的广泛实验表明，该方法在跨越多种主动感知场景的多样化长时程任务中展现出强大的鲁棒性与适应性。

← Back