Abstract not available.
近期基于扩散模型的视频生成技术在视觉保真度和时序连贯性方面取得了显著进展。然而,现有方法大多仍局限于特定任务,且主要依赖文本指令,难以在统一框架内处理多模态输入、上下文参考以及多样化的视频生成与编辑场景。此外,许多视频编辑方法依赖于针对单一操作精心设计的流程,这限制了其扩展性与组合性。本文提出Tele-Omni,一个统一的多模态视频生成与编辑框架,能够通过单一模型响应包含文本、图像和参考视频在内的多模态指令。Tele-Omni利用预训练的多模态大语言模型解析异构指令并推断结构化的生成或编辑意图,同时基于扩散模型的生成器根据这些结构化信号执行高质量视频合成。为实现跨异构视频任务的联合训练,我们提出一种任务感知的数据处理流程,将多模态输入统一为结构化指令格式,同时保留任务特定的约束条件。Tele-Omni支持广泛的视频中心任务,包括文本到视频生成、图像到视频生成、首尾帧视频生成、上下文视频生成以及上下文视频编辑。通过将指令解析与视频合成解耦,并结合任务感知的数据设计,Tele-Omni在保持强大时序连贯性与视觉一致性的同时,实现了灵活的多模态控制。实验结果表明,Tele-Omni在多项任务中均展现出具有竞争力的性能。