真实度超越真人！网易互娱AI Lab提出语音合成对话动作新方法

【资料图】

近日，网易互娱AI Lab创新性地提出了一种语音合成对话动作的新方法。该方案不仅在GENEA 2022大赛中斩获第一，所合成的动作表现出远超于其他参赛选手、甚至超越真人的真实自然度，同时技术论文也被国际计算机人际交互会议ACM ICMI 2022正式收录。

GENEA 2022是语音合成对话动作领域的权威赛事，汇聚了全球来自工业界和学术界的顶尖队伍，角逐非常激烈。而ACM ICMI是人机交互领域的重要国际会议，1996年举行首次会议，迄今已经持续24届。大会重点关注多模态人机交互、界面设计和系统开发，录取论文在人机交互领域研究中也具有首屈一指的影响力。本次大赛夺冠和入选ACM ICMI代表了网易互娱AI Lab在计算机视觉领域的领先技术实力和来自国际的认可。

语音合成对话动作技术能够根据输入语音和对应的文本信息，自动生成上半身甚至全身动作，并需要保证合成动作的真实与自然性，也要保证动作和语音之间的匹配度。目前业界常用的方法为StyleGestures，但其合成的动作距离真实的动捕数据仍有明显差距，存在动作机械感较重和效果随机性较大的问题。在当前背景下，网易互娱AI Lab提出了一种AI合成对话动作的新方法，该方案在动作合成的真实自然度指标上远超GENEA大赛的其他选手，甚至小幅超过了真实动作；在动作与语音匹配度指标上的表现也领先于其他队伍。

( FSA ：互娱AI Lab 全身，FNA：真实全身；USQ：互娱AI Lab 半身，UNA：真实半身)

在方案中，网易互娱AI Lab的团队首先构建了一个高质量的离线动作库，再通过语音节奏计算、手势风格预测和动作搜索匹配，以及动作融合的方式，构建了一个基于动作图优化的语音驱动全身动作的模型。该模型在合成动作时不仅能够考虑到语音的节奏，还可以支持不同的风格，例如考虑到男性和女性不同的说话习惯和姿态；同时，该模型还允许在不同时刻替换或指定待定的动作，并确保替换后的动作过渡自然。因此，网易互娱AI Lab所提出的语音合成对话动作新方法拥有更真实自然、稳定可控的表现，更有可能满足实际生产的需求。

（左：男性动作，右：女性动作）

逼真自然的人物动作合成有望改变动画、替身和交际智能体领域。近年来，语音合成口型的相关研究已非常普遍，但基于语音合成肢体动作的技术仍缺少统一评估标准，鲜有落地。网易互娱AI Lab本次提出的语音合成对话动作技术正是在该领域的一次成功探索。不仅是生成对话动作，团队在基于语音生成口型、表情和舞蹈动画方面，已经研发出了能够实际应用于生产环境的AI技术，并应用于《一梦江湖》、《梦幻西游三维版》等游戏中，相比传统流程中的动捕或手K大幅降低了制作成本，压缩了生产周期。未来，网易互娱AI Lab也将不断拓展AI自动生成内容的边界，打造更可信的虚拟角色，重塑智能交互体验，让我们距离元宇宙的畅想更进一步。

关键词：

真实度超越真人！网易互娱AI Lab提出语音合成对话动作新方法

相关推荐

热点图集