VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents<br>VideoWeaver：面向具身智能体的多模态多视角视频到视频迁移框架<br>[摘要](abstracts/2603.25420.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频到视频（V2V）转换技术的最新进展使得能够对具身人工智能演示进行逼真的重模拟，这一能力允许预训练的机器人策略无需额外数据收集即可迁移到新环境。然而，现有方法每次只能处理单一视角，而具身人工智能任务通常通过多个同步摄像头捕捉以支持策略学习。若将单视角模型简单独立地应用于每个摄像头，会导致跨视角外观不一致；同时，标准Transformer架构由于跨视角注意力的二次计算成本，难以扩展至多视角场景。本文提出VideoWeaver，首个多模态多视角V2V转换框架。VideoWeaver首先被训练为基于流的单视角V2V模型。为实现向多视角领域的扩展，我们提出将所有视角锚定于一个共享的4D潜在空间，该空间源自前馈式空间基础模型Pi3。这一设计即使在宽基线及动态相机运动条件下，仍能确保视角间外观的一致性。为突破固定摄像头数量的限制，我们在不同扩散时间步训练各视角，使模型能够学习联合与条件视角分布。这进而支持基于现有视角自回归合成新视角。实验表明，本方法在单视角转换基准测试中达到或超越了现有最优性能，并首次实现了物理与风格一致的多视角转换，包括对机器人学习中的世界随机化至关重要的挑战性第一人称视角及异构摄像头配置。

← Back