AUHead: Realistic Emotional Talking Head Generation via Action Units Control<br>AUHead：基于动作单元控制的逼真情感说话头部生成<br>[摘要](abstracts/2602.09534.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

逼真的说话头部视频生成对于虚拟化身、电影制作和交互系统至关重要。现有方法因缺乏细粒度情感控制而难以实现细腻的情感表达。为解决此问题，我们提出了一种新颖的两阶段方法（AUHead），以从音频中解耦细粒度情感控制（即动作单元，AUs），并实现可控生成。在第一阶段，我们探索了大型音频-语言模型（ALMs）的AU生成能力，通过时空AU标记化和“先情感后AU”的思维链机制，旨在从原始语音中解耦AUs，有效捕捉微妙的情感线索。在第二阶段，我们提出了一种AU驱动的可控扩散模型，该模型基于AU序列合成逼真的说话头部视频。具体而言，我们首先将AU序列映射为结构化的二维面部表示以增强空间保真度，然后在交叉注意力模块中建模AU与视觉的交互。为实现灵活的AU-质量权衡控制，我们在推理过程中引入了AU解耦引导策略，进一步优化生成视频的情感表现力和身份一致性。在基准数据集上的结果表明，我们的方法在情感真实性、准确的唇部同步和视觉连贯性方面实现了有竞争力的性能，显著超越了现有技术。我们的实现代码可在https://github.com/laura990501/AUHead_ICLR获取。

← Back