Abstract not available.
逼真的说话头部视频生成对于虚拟化身、电影制作和交互系统至关重要。现有方法因缺乏细粒度情感控制而难以实现细腻的情感表达。为解决此问题,我们提出了一种新颖的两阶段方法(AUHead),以从音频中解耦细粒度情感控制(即动作单元,AUs),并实现可控生成。在第一阶段,我们探索了大型音频-语言模型(ALMs)的AU生成能力,通过时空AU标记化和“先情感后AU”的思维链机制,旨在从原始语音中解耦AUs,有效捕捉微妙的情感线索。在第二阶段,我们提出了一种AU驱动的可控扩散模型,该模型基于AU序列合成逼真的说话头部视频。具体而言,我们首先将AU序列映射为结构化的二维面部表示以增强空间保真度,然后在交叉注意力模块中建模AU与视觉的交互。为实现灵活的AU-质量权衡控制,我们在推理过程中引入了AU解耦引导策略,进一步优化生成视频的情感表现力和身份一致性。在基准数据集上的结果表明,我们的方法在情感真实性、准确的唇部同步和视觉连贯性方面实现了有竞争力的性能,显著超越了现有技术。我们的实现代码可在https://github.com/laura990501/AUHead_ICLR获取。