MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation<br>MVISTA-4D：具有测试时动作推理能力的视图一致4D世界模型，用于机器人操作<br>[摘要](abstracts/2602.09878.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于世界模型的“先想象后行动”范式已成为机器人操作领域的一个有前景的方向，但现有方法通常仅支持纯图像预测或对部分3D几何进行推理，限制了其预测完整4D场景动态的能力。本文提出了一种新颖的具身4D世界模型，能够实现几何一致的任意视角RGBD生成：仅以单视角RGBD观测作为输入，该模型可想象剩余视角，进而通过反投影与融合，跨时间组装出更完整的3D结构。为高效学习多视角跨模态生成，我们显式设计了跨视角与跨模态特征融合机制，共同促进RGB与深度间的一致性，并强制实现跨视角的几何对齐。除预测外，将生成的未来状态转化为动作通常通过逆动力学处理，但由于同一状态转移可由多种动作解释，该问题具有不适定性。我们通过一种测试时动作优化策略解决此问题：该策略通过生成模型反向传播，推断出与预测未来最匹配的轨迹级潜在变量，并配合一个残差逆动力学模型，将这一轨迹先验转化为精确可执行的动作。在三个数据集上的实验表明，该方法在4D场景生成与下游操作任务中均表现优异，消融研究则为关键设计选择提供了实用见解。

← Back