ConvoFusion: 用于语音手势合成的多模态对话扩散

手势在人类交流中起着关键作用。最近的共语手势生成方法虽然能够生成与节拍对齐的动作，但在生成与话语语义对齐的手势方面仍然存在困难。相比于自然与音频信号对齐的节拍手势，语义连贯的手势需要对语言与人体动作之间复杂的互动进行建模，并可以通过关注特定词语来进行控制。因此，我们提出了ConvoFusion，一种基于扩散的多模态手势合成方法，它不仅可以基于多模态语音输入生成手势，还可以在手势合成中实现可控性。我们的方法提出了两个引导目标，使用户能够调节不同条件模态（例如音频与文本）的影响，并选择在手势过程中需要强调的特定词语。我们的方法具有多功能性，可以训练生成独白手势，甚至是对话手势。为了进一步推进多方互动手势的研究，我们发布了 DnD Group Gesture 数据集，该数据集包含6小时的手势数据，展示了5个人之间的互动。

作者：Muhammad Hamza Mughal等
论文题目：ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis
来源：CVPR 2024
论文链接：https://arxiv.org/abs/2403.17936
内容整理：王怡闻

引言

ConvoFusion: 用于语音手势合成的多模态对话扩散 | CVPR 2024 — 图 1

尽管大多数方法成功捕捉到了与语音节奏对齐的节拍手势，它们在手势生成中的语言控制方面仍然不足，因此难以生成对语句整体意义有贡献的精确语义手势。这可以归因于节拍手势的运动在时间上与语音信号良好对齐，并且一般对所有说话者和内容都遵循类似的空间模式，因此更容易通过学习技术进行建模。另一方面，语义连贯性与词语、其意义以及个人说话者之间有更复杂的时间交互。在这项工作中，我们提出了CONVOFUSION——一种新颖的可控手势合成方法，不仅可以生成共语手势，还可以生成反应（和被动）手势。我们设计的运动潜在空间具有时间感知功能，从而使我们能够学习运动和语音之间的时间关联，并能够进行连续的手势合成。

我们的模型支持多种输入（对话中的说话者的文本和音频）。为了实现模型的可控多模态推理，CONVOFUSION 还允许我们通过细粒度的文本引导增强与特定词语相关的微手势。拥有测试时的模态控制和词级文本引导，使我们能够对生成的动作进行粗粒度和细粒度的控制；这是现有手势合成工作中所缺少的特性。

我们框架的目标之一是对对话场景中表现出的手势进行建模。然而，大多数现有数据集仅包含独白内容，如 TED 和 SHOW 数据集。即使是记录在对话场景中的数据集，也仅为一个人提供注释。为了解决这个问题，我们引入了 DND GROUP GESTURE 数据集。该数据集包含五名参与者进行多场 DND 游戏——一种流行的角色扮演游戏的多次会话。数据集包括所有参与者的高质量全身动作捕捉、多通道音频记录和文本转录。通过大约6小时的捕捉，DND GROUP GESTURE 数据集使我们能够提出一种新的方法来生成双人互动场景中的手势。