Abstract not available.
逆动力学模型(IDMs)将视觉观测映射为低层动作指令,是具身人工智能中数据标注与策略执行的核心组件。然而,在机械臂截断这一常见故障模式下,其性能会严重下降,导致状态恢复问题不适定并引发控制不稳定。本文提出StableIDM,一种时空框架,通过精炼视觉输入的特征,以在此类部分可观测性下稳定动作预测。StableIDM整合了三个互补组件:(1)辅助性以机器人为中心的掩码机制,以抑制背景干扰;(2)方向性特征聚合(DFA),用于几何感知的空间推理,该组件沿可见机械臂推断的方向提取各向异性特征;(3)时序动态精炼(TDR),通过运动连续性平滑并校正预测。广泛的评估验证了我们的方法:在AgiBot基准测试中,StableIDM在严重截断情况下将严格动作准确率提升了12.1%,并在真实机器人回放中将平均任务成功率提高了9.7%。此外,在解码视频生成计划时,它将端到端抓取成功率提升了11.5%;当作为自动标注器使用时,下游视觉语言动作(VLA)真实机器人任务成功率提高了17.6%。这些结果表明,StableIDM为具身人工智能的策略执行与数据生成提供了一个鲁棒且可扩展的骨干框架。